企业自审和博特智能审核,哪种技术更成熟? – 作者:博特智能内容安全实验室

内容审核的范围有多广?
互联网公司必须对平台上的内容负责,如果内容不当,公司会面临被罚款或者运营牌照被吊销的后果。
目前有一套针对互联网、应用程序和媒体的内容管控系统,但这套系统与内容管理相关的法律法规界定仍然比较模糊。比如,“扰乱社会秩序,破坏社会稳定”的内容是不被允许的,但对于什么内容“扰乱社会秩序,破坏社会稳定”就没有明确定义。
互联网公司可能会在重大事件期间收到相关提醒,要做好内容审核工作,但有研究显示暂时还未有统一的关键词库提供给企业使用。
这也造成了同一企业主,时常遇到以下情况:在使用不同平台,上传自己企业同一内容时,会遇到不同情况的内容违规提示。
v2-c0b8f72218a8bdf61eb9cb2b39f1dfab_b.png
企业通常需要自行鉴定如何过滤内容以及具体哪些内容需要被过滤。但通常,各企业的内容自审成员,都是以自定的审核标准,来判断是否误导用户,是否给用户权益带来影响。不同地区有不同的罚款规定,罚款可从数百,到数千,乃至数百万元,或者直接从应用平台移除相关应用。

下面我们以某聊天软件为例,来分享一下部分企业的内容审核机制。
某聊天软件通过服务器端进行内容审查,审查标准存储在该企业的服务器上。
信息从一方某聊天软件用户发送到另一方时,它会途经企业(某聊天软件的母公司)管理的服务器,服务器在把信息传递到接收方时会先检查该信息是否含有敏感词。
含有敏感词的信息会被屏蔽,某聊天软件不会对信息发送方或接收方进行屏蔽提示。
v2-8381fceb50c355047b521e70b9dfd2dc_b.png

某聊天软件如何分析、标示、并存储敏感文件
文件会被扫描是否存在敏感文字,图像也会被扫描是否含有敏感文字,还会与系统现有的敏感图库比对,分析目标图片是否与图库内的其他图片相似。
如果文件被系统定义为ZZ敏感,文件的MD5值会被标示。某聊天软件会储存这个MD5值,以备下次更有效率地过滤这些文件。
某聊天软件通过消息摘要算法版本5 (MD5 hash)来迅速辨识并标志敏感内容。MD5值是什么?
MD5是一种数字指纹。MD5算法可以用来把体积大的文件缩小至一个“哈希值”。
哈希值通常由一个短的随机字母和数字组成的字符串组成。按照MD5算法的不可逆性和唯一性设计,不同的文件应该拥有不同的MD5值,但实际上该算法存在漏洞。
由于某聊天软件使用MD5算法存储敏感文件的哈希值,利用了算法的漏洞来设计本研究。把两份内容不同的图像文件修改成一样的哈希值,其中一张图像含有ZZ敏感信息,另一张是普通的图像文件。
下图展示了把文档或图像转换为MD5值的过程。在下图的例子中,两张不同的图像通过加密算法转换成两个唯一的MD5值。
v2-324f509f50b82a8b0a969e451a575591_b.png
这项技术分析只能表明图像和文件的审核逻辑,无法得知该聊天软件的文字通讯信息是否能被即时审核。
所有的社交媒体平台都有做内容审核吗?博特智能和企业自己做的内容审核有什么不同?
内容审核目前最大的目的,是为了保障用户权益在海量的内容信息中尽可能不受损失,其次,则是帮助完善日后的内容审核机制等。
近年来,各类型企业日益全球化,在满足国际用户的需求的同时,遵守内容审核规范的需求,愈加强烈。
博特智能与中科院计算所、声学所和信工所达成研究合作计划,成立内容安全实验室,基于各研究所在信息内容安全领域的深厚积淀,由博特智能公司投入研发资金,共同研发内容安全领域的新技术和新产品。
博特智能的内容审核产品,以内容安全实验室研发提供的海量违规词库、敏感词库为依托,有效提升企业内容审核通过率。
v2-6f8e28bc09e24a81589b2bfff45b8d16_b.png
延伸阅读:
博特小管家 | 扫码预约 在线体验
v2-6cf4eeb80ade613f318139f8ca816870_b.png
该项服务由博特智能联合中科院相关实验室共同开发提供,博特智能是专注于信息内容安全领域的人工智能知识产品与服务提供商,这是一家以人工智能技术为导向,产学研一体化的高科技企业。
商务合作请投邮箱:[email protected]咨询热线:400 819 6619
预览时标签不可点

来源:freebuf.com 2020-09-10 14:04:13 by: 博特智能内容安全实验室

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论