Tumblr扫黄正式开始!AI鉴黄也许是老司机们的头号敌人

时间:2024-04-19 10:19来源:未知作者:admin点击:827

导读:
扫描关注公众号

机器之心原创,作者:李亚洲、李泽南。

12月初,美国著名图片博客网站Tumblr宣布将全面禁止任何成人内容。新规定将于12月17日正式施行。这一行为看来是主动在和「互联网的30%流量」说再见,长久混迹Tumblr的老司机们送了一首「凉凉」予它。

在Tumblr的官方通告中,公司CEOJeffD’Onofrio表示,「……(Tumblr)将采用产业标准的机器监控、不断加大的人类监控等方式禁止成人内容。」

但是,才「睁开眼睛」的计算机并不那么完美。」Wired在近日的一篇文章中称。许多Tumblr用户在Twitter上抱怨其鉴别系统存在许多误判行为。如据Wired文章,奥克拉荷马大学法学院教授SarahBurstein只是发布了几张设计专利图,就被标记了。文章表示这不仅效率低下,而且伤害了用户的感情。不少Tumblr的用户失望地涌向推特,《》称这些用户是「弃船而逃」。

其实在多年前,Tumblr就面临着准确识别NSFW内容的问题。2013年,Yahoo11亿美元收购Tumblr,4年后Verizon收购雅虎,Tumblr归于Verizon子公司Oath,并在不久之后推出了「安全模式」,能在搜索结果中自动过滤成人内容。

图像鉴黄系统流程是什么?

鉴黄系统的工作流程是这样的:首先是要建模,其次是制定色情图片的分类标准,然后收集大量素材,进行分类标注,最后用这些标注好的素材进行训练,让机器去学习各个分类里面的特征,不断调整自己模型的参数并最终得到最佳的识别模型。

而当机器对图像进行识别以后,这些图像数据会转化为数字化的信息,带入到模型里面进行计算,根据计算值将图片标注为「正常、性感、色情」三个类别。

因为「识别」的不完美性,这样的系统也会有人类的参与。在经过识别之后,系统把判断结果和概率告诉使用方,使用方会再根据结果做对应处理,比如自动删除、或者人工接入复审。如果在人工复核环节发现机器识别有误,则会有针对性地对相同场景的图片进行数据学习,并调整参数,直到错误率达到最低值。

AI鉴黄的技术核心是深度学习理论(DeepLearning)。通俗来讲,可以把深度学习理解为一个空白的大脑,海量数据就是灌输进来的经验。当我们把大量的色情、性感、正常的样本的属性告诉深度学习的引擎,让引擎不断学习,然后把他们做对的进行奖励,做错的就惩罚,当然这些奖励和惩罚都是数学上的,最后空白的脑袋就会学成了一种连接的模型,这种模型就是为了鉴别色情与非色情而生的。

深度学习就是人工神经网络(ArtificialNeuralNetwork,以下简称ANN)。要了解ANN,让我们先来看看人类的大脑是如何工作的。

上图表示人理解外界视觉信息的过程。从视网膜(Retina)出发,经过低级的V1区提取边缘特征,到V2区的基本形状或目标的局部,再到高层的整个目标(如判定为一张人脸),以及到更高层的PFC(前额叶皮层)进行分类判断等。也就是说高层的特征是低层特征的组合,从低层到高层的特征表达越来越抽象和概念化,也即越来越能表现语义或者意图。

深度学习恰恰就是通过组合低层特征形成更加抽象的高层特征(或属性类别),然后在这些低层次表达的基础上通过线性或者非线性组合,来获得一个高层次的表达。此外,不仅图像存在这个规律,声音也是类似的。

现在来看深度学习的简易模型。

深度学习的一个主要优势在于可以利用海量训练数据(即大数据),在学习的过程中不断提高识别精度,但是仍然对计算量有很高的要求。而近年来,得益于计算机速度的提升、大规模集群技术的兴起、GPU的应用以及众多优化算法的出现,耗时数月的训练过程可缩短为数天甚至数小时,深度学习才逐渐可用于工业化。

对于开发团队来说,做该领域的产品困难在于如何获取大规模已标注数据、集成有GPU的计算集群以及针对自己的项目调参数,团队需要不断地输入新数据,持续迭代以提高机器识别准确率。

审核能否完全依赖机器?

针对人们屡屡吐槽的「误杀」问题,图谱认为在提高AI算法准确度的同时目前还需依靠人类做最后的判断。误判分为两大类型:把色情内容误判为正常内容,以及把正常内容误判为色情内容。

1)色情判正常:在光线昏暗场景,或者距离很远时背景干扰比较大的场景下,以及有特效干扰的情况都有可能造成误判;衣着正常但实际上露点、隐晦的动作和姿势等。

2)正常判色情:穿着暴露但实际没露点,物体形似性器官,接近于色情动作但实际不是(譬如手抓棍状物体、手正常放在敏感部位)等。

机器能够帮助企业大幅提升审核效率和准确率。以图普科技的鉴黄系统为例,每天可审核近10亿张图片,识别准确率高于99.5%,可为企业节省95%以上的审核人力。但在现阶段甚至很长一段时间内,人工智能鉴黄无法完全代替人工鉴黄。因为机器还很难理解内容背后的深意,也不会在不同文化场景中做自由切换。所以推荐以机器+人工的审核方法。

单纯的算法和模型是可以把机器训练到完全正确地判断情况的,但是在实际应用中,机器没有自主思考和自己的主观意识,仍然需要人工辅助进行确认。例如客户提供的画面过于模糊或者说光线过暗,以及训练数据的不能完全覆盖性等种种客观原因影响下,机器打不出很高的分确认图片,这都需要人工来辅助。

「Tumblr网友:即使这样我也爱你。」

看来,AI图像识别系统可以用现有的,「鉴黄师」则非请不可。在宣布禁止成人内容之后,Tumblr的app终于再次出现在苹果应用商店里。这辆车最终会开向何处?让我们拭目以待。


参考资料
最新文章
推荐文章

热门标签

广州坤和助孕中心

Copyright © 2002-2030广州坤和助孕中心 广州坤和助孕中心网站地图sitemap.xml tag列表

声明: 本站文章均来自互联网,不代表本站观点 如有异议 请与本站联系