现有的信息抽取系统多数只支持单一类型的网站,且需要用户手工标注待提取的数据,自动化程度较低,不适合需大量提取数据的场景。
如图所示,本课题预期实现的智能Web信息抽取系统则通过合并前三部分的算法与技术,提升信息抽取过程的准确率和效率。
页面区域分块模块对源页面进行初步分块,冗余块过滤模块对样本数据进行聚类和筛选,多模式分类抽取技术通过分类判别数据类型并选择效果最好的抽取方式,系统输入为源网页,输出为结构化数据。
来源:freebuf.com 2020-08-29 21:14:04 by: 博特智能内容安全实验室
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
喜欢就支持一下吧
请登录后发表评论
注册