博特智能|智能Web信息抽取系统 – 作者:博特智能内容安全实验室

现有的信息抽取系统多数只支持单一类型的网站,且需要用户手工标注待提取的数据,自动化程度较低,不适合需大量提取数据的场景。
如图所示,本课题预期实现的智能Web信息抽取系统则通过合并前三部分的算法与技术,提升信息抽取过程的准确率和效率。
页面区域分块模块对源页面进行初步分块,冗余块过滤模块对样本数据进行聚类和筛选,多模式分类抽取技术通过分类判别数据类型并选择效果最好的抽取方式,系统输入为源网页,输出为结构化数据。
v2-5d82489c52768526c0a5947eda34246d_b.png

来源:freebuf.com 2020-08-29 21:14:04 by: 博特智能内容安全实验室

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论