由于整个评论提交过程中有很多文件存在违规记录,从一开始就很清楚,数据将是重复和混乱的。研究人员将 22M + 评论和 60GB + 价值的文本数据和元数据分解成更小的片段,并且汇总了许多重复的评论,并获得了 2,955,182 个独特的评论和他们各自的重复计数。然后将每个评论映射到语义空间矢量上,并根据评论的含义运行一些聚类算法。在对评论类别进行分类并删除重复内容之后,研究人员发现向 FCC 提交的 2200 多万条评论中的不到 80 万(3-4%)可以被认为是独一无二的。
稿源:cnBeta,封面源自网络;
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
喜欢就支持一下吧
请登录后发表评论
注册