超过一百万份有关废除网络中立的评论可能是假的

admin

4年前发布
关注私信

0200

由于整个评论提交过程中有很多文件存在违规记录，从一开始就很清楚，数据将是重复和混乱的。研究人员将 22M + 评论和 60GB + 价值的文本数据和元数据分解成更小的片段，并且汇总了许多重复的评论，并获得了 2,955,182 个独特的评论和他们各自的重复计数。然后将每个评论映射到语义空间矢量上，并根据评论的含义运行一些聚类算法。在对评论类别进行分类并删除重复内容之后，研究人员发现向 FCC 提交的 2200 多万条评论中的不到 80 万（3-4%）可以被认为是独一无二的。

稿源：cnBeta，封面源自网络；

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

网络安全新闻

喜欢就支持一下吧

相关推荐

评论抢沙发

请登录后发表评论