SoReL-20M:一个由 2000 万个恶意软件样本组成的庞大数据集

12月14日,网络安全公司Sophos和ReversingLabs首次联合发布了面向公众的恶意软件研究数据集,旨在建立有效的防御措施,推动全行业在安全检测和响应方面的改进。

SoReL-20M”是一个数据集,包含2000万个Windows可移植可执行文件(.PE)的元数据、标签和功能,1000万个已解除防护的恶意软件样本,其目标是设计机器学习方法,以获得更好的恶意软件检测能力。

Sophos AI组织表示:“对网络威胁的开放认识和理解也会导致更具预测性的网络安全。他防御者将能够预见攻击者在做什么,并为下一步行动做好更好的准备。”

伴随发布的是一组基于PythorchLightGBM的机器学习模型,这些模型以这些数据为基础进行了预先训练

SoReL-20M:一个由 2000 万个恶意软件样本组成的庞大数据集

EMBER(又名Endgame Malware BEnchmark for Research)于2018年发布,是一种开源恶意软件分类器,但其较小的样本量(110万个样本)及其作为单标签数据集(良性/恶意软件)的功能意味着它“限制了可以用它执行的实验范围”。

SoReL-20M旨在用2000万个PE样本来解决这些问题,其中包括1000万个已解除防护的恶意软件样本(无法执行),以及为另外1000万个良性样本提取的特征和元数据。

此外,该方法利用了一个基于深度学习的标记模型来生成人类可解释的语义描述,指定所涉及样本的重要属性。

ReversingLabs的研究人员表示:“在安全领域共享威胁情报并不新鲜,但攻击者近几年来不断创新,因此共享威胁情报十分重要。”

 

 

 

消息及封面来源:The Hacker News ;译者:芋泥啵啵奶茶。

本文由 HackerNews.cc 翻译整理。

转载请注明“转自 HackerNews.cc ” 

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论