博特智能|多模式识别智能信息抽取技术 – 作者:博特智能内容安全实验室

网页一般由多种不同类型的数据组成,可以根据特点分为文本数据、列表数据和其他类型的数据,文本数据一般是新闻、论坛等网站的主要组成部分;列表类型的数据则常出现在购物网站中;而像一些图片、视频类型的数据则统一被归为其他类型。对于不同类型的数据,也会有不同的抽取方式。现有的抽取方法往往是抽取特定类型的数据,对其他类型的数据进行提取时适应性较差。
例如基于文档结构的抽取方式在抽取列表类型数据时表现较好。文档结构指的是页面DOM树上不同节点之间的次序和层级关系,基于这一特征的研究方向往往关注树结构的相似性,通过基于规则或者聚类的方式寻找数据所在的路径。而基于文本统计特征的抽取对文本数据占主要组成部分的网站效果较好,在一些新闻、小说、博客类型的网页中,单位区域内文本所占的密度要远高于其他页面。所以文本特征,比如文本的数量、密度,包括标点符号的密度,都可以成为衡量是否为有效数据的标准。近年来比较热门的基于自然语言理解的抽取方式则效果比较平均,这类方法将网页视为纯文本数据,对其进行句法、语义分析等等,达到识别专有对象的效果。但这类方法的缺点也很明显,其忽略了Web页面区别于普通文档的标签和层序特征,效果可能较差。
综上,为了综合每一种提取方式的优势,以提高最终抽取结果的准确率,本课题提出了一种基于多模式分类的信息抽取算法。
如图所示,首先对上一步得到的所有页面块进行迭代分类,基于GBDT算法(Gradient Boosting Decision Tree)判断其属于哪一种标签类型,如果是文本或者图片类型,可以在保持结构的前提下输出为一个条目。
而如果为列表或其他类型,则继续向下迭代,并保留层次结构。通过先分类后提取的方式可以减少不同类型数据对准确率下降的干扰。
v2-0ae41edfbaf3614ad5bbcc9b9d92bad1_b.png

来源:freebuf.com 2020-08-29 21:11:25 by: 博特智能内容安全实验室

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论