快页不良信息监测系统(快页内容安全监测系统)基于网络爬虫技术主动采集获取互联网内容数据(文本、图片、音频、视频、文档等),基于关键字匹配、自然语言处理、智能图像识别、图像目标检测、样例图片匹配识别等技术手段,智能帮助用户对互联网网站及应用系统(文本、图片、音频、视频、文档等)中含有的色情淫秽、涉政敏感、邪教迷信、诈骗赌博等不良信息进行深度检测、准确定位、有效取证、及时告警,从而满足内容监管要求,提升网站服务“软质量”,防止不良信息安全隐患,履行社会责任、规避政治风险。
内容识别技术:
关键字匹配。基于系统预设的数万条不良信息识别关键字策略规则,对爬虫获取的网站文本、图片OCR文字、音频转文字等数据进行关键字匹配识别,发现含有不良信息关键字的疑似不良信息文本内容。系统支持自定义关键字策略规则添加。
自然语言处理。系统具备基于深度学习的自然语言处理技术,通过使用非监督数据训练字词向量,提升泛化能力,从而提高文本不良信息的检测发现率,弥补关键字匹配的预设策略不全的缺点,有效识别关键字策略之外的色情淫秽、涉政敏感类文本不良信息。
智能图像识别。系统采用智能图像识别技术,通过大量同类型图片数据持续训练、频繁迭代模拟形成人脑视觉认知对同类型/相似场景(如:色情场景、反动暴恐标志、特定文字、特定人物、特定场景等)的网站图片进行检查,可智能识别同类型/相似场景的图片,从而发现网站中含有的不良信息图片。
图像目标检测。系统采用目标检测技术对图片中出现的旗帜、Logo进行精准识别。目标检测技术可在给定的图片中精准找到物体所在位置,并标注出物体的类别,通过该技术可有效识别网站中含有的特定目标图片(如,违规旗帜、logo)。
样例图片匹配识别。基于系统积累的数万张涉政敏感样例图片建立的特征库,将采集获取的被监测网站图片与样例图片特征库进行比对分析,从而发现含有涉政敏感的图片内容。系统支持自定义样例图片添加。
视频内容识别。对爬虫获取的网站视频进行抽帧,基于智能图像识别、图像目标检测、样例图片匹配识别技术对视频帧进行不良信息内容分析,从而发现网站中含有的不良视频内容。
来源:freebuf.com 2021-07-27 00:55:55 by: kuaiye
请登录后发表评论
注册