心灵侦探:针对潜在内部攻击者的心理侧写方法 – 作者:木千之

写在前面

内部威胁早已不是一个新名词,但是自出现的十几年间却一直不甘寂寞地出现在我们的耳边。尤其从斯诺登事件开始,内部威胁正式走入了大众视野,成为了学业界以及全社会都必须给予高度重视的安全挑战。尽管当今世界的安全事件多由外部的黑客团队发起,然而无论何种精妙的恶意程序最终只有运行在内网中才能发挥作用,而这,其实也可以看作一个内部威胁的特例。

今天我将为FreeBuf的同仁们介绍几种运用最新的心里侧写技术提早发现内部攻击者的检测方法,囿于学力,不足之处请各位大大们不吝赐教。

关于内部威胁的介绍大家可以移步http://www.freebuf.com/news/topnews/104030.html

目录

    1. 为什么要当个心灵侦探?

    2. 应当选择何种模型来侧写攻击者特征?

    3. 应当如何隐秘地侧写用户心理特征?

    4. 一种基于统计分析的朴素分类器

    5. 验证实验

    6. 小结

一、为什么要当个心灵侦探?

当今主流的内部威胁检测方法是基于场景驱动的用户行为分析,其核心思想,是首先确定对应内网中(一个广义的内部网络范围,可以允许或禁止连接外网)可能的内部威胁类型/场景,并在此基础上提取用户行为特征,建立异常检测分类器识别用户异常。

例如,如果一种可能的攻击场景是内部用户的跳槽行为,假设通过场景分析,内部员工的跳槽过程通常需要具备以下几个步骤:

访问招聘平台或者同行竞争对手网站

有意向后,向对方联系人发送email

通过email介绍自己、或约定相关事宜

利用自己的访问权限拷贝经手/可访问的专利知识产权、客户信息、项目资料等,以跳槽时带入新公司

使用U盘等设备传输上述核心资料

上述的场景是一种简单的跳槽过程,实际中可能更复杂多变,但是这里已经足够我们用来作为建立场景分析的示例。上述场景分析可以得出用户跳槽主要涉及异常的HTTP访问—>异常Email通讯—>异常文件copy—>异常U盘使用,因此重点针对HTTP/Email/File/Device行为进行建模异常检测即可。

然而,如果仅仅单独考虑上述审计行为数据,实际中可能面临高误报的困扰,因为正常用户也完全可能出现上述异常行为。大量的误报导致无法进一步分析处理,其结果等同于没有报警。对于这个问题基于行为异常检测的方法已经无能为力,唯一欠缺的是能够洞悉用户内心的心灵侦探,从而可以识别出同样异常后的不同动机与恶意倾向。

这里之所以用“心灵侦探”来作标题,其主要原因是今天介绍的方法揭开了刻画用户心理特征的序幕,为内部威胁检测引入了新的检测维度,从观察外部用户行为,深入到内部用户心理特征。如同热播美剧《 lie to me》中的男主借助人类面部微表情判断是否说谎一样,我们的心灵侦探也需要窥视用户内心的媒介。

二、应当选择何种模型来侧写攻击者特征?

在确定窥视用户内心的媒介之前,我们希望可以首先明确,最终想看到的用户心理状态是如何表示的呢?最直观的方式莫过于提供一个公认的心理模型从多个维度描述用户心理特征,然后针对每个维度打分得到量化的评价。幸运的是,前人早已在心理模型领域取得了许多优秀的成果,为了完成上述过程,我们引入一种通用的心理模型——大五人格模型。(具体内容可以参看度娘大五人格)大五人格基本可以涵盖一个人具备的所有可能特质,因此,我们希望可以通过分析用户的某种数据得到其大五人格分数评价,完成心理侧写的过程。

那么大五人格是否能够反映内部攻击者的心理特征呢?答案是肯定的。国外研究者已经通过大量的内部威胁案例分析以及原理推演得出结论,大五人格中的神经质、宜人性以及尽责性同内部威胁表现出显著关联。

神经质反映了个体情感调节过程与体验消极情绪的倾向和情绪不稳定性,高神经质个体在日常学习工作中更容易有心理压力、不现实的想法、过多的要求和冲动等,因此更容易体验到愤怒、焦虑、抑郁等消极情绪,他们对外界刺激反应比一般人强烈,对情绪的调节、应对能力比较差,经常处于一种不良的情绪状态,而这些正是内部攻击的重要心理诱因。

宜人性侧重考察个体对他人所持的态度,这些态度一方面包括积极的层次,如与人亲近程度、同情心强弱、对他人的信任程度等,另一方面也包括各种消极层次,如与人敌对、愤世嫉俗、报复心强、对世人冷漠无情等。总体来说,宜人性可以刻画一个人对合作与人际关系是否看重。高宜人性个体通常表现为善解人意、慷慨大方、乐于助人,一般愿意为了别人的利益做出改变;而低宜人性个体通常对别人漠不关心,更重要地是经常把自己的利益放在他人之上,既不关心别人,也不愿意帮助别人,并且经常表现出愤世嫉俗与对周围人的怀疑,因此低宜人性个体更容易在与他人发生人际冲突,产生矛盾,从而导致产生恶意动机。

尽责性指我们控制、管理和调节自身冲动的方式,评估个体在目标导向行为上的组织、坚持与动机,主要反映个体自我控制的程度以及推迟需求满足的能力。低尽责性个体一般都难以控制自己的冲动,为了暂时的满足而给自己带来麻烦,因此往往难以处理遇到的压力,而压力也是导致内部攻击的重要心理诱因。

开放性主要用来描述一个人的认知风格,区别其对新生观念等抽象事物的开放与保守度;外倾性则标识人际互动的数量和密度,以及对刺激的需要和由此获得愉悦的能力,主要区分个体的沉默严肃与开朗热情程度。由于开放性与外倾型特质与内部威胁的关联尚不明显,因而,接下来的心理分类器将侧重在神经质、宜人性与尽责性三个维度侧写攻击者的人格特征。

大五人格与内部攻击

                                                                                     图1:大五人格与内部攻击

三、应当如何选择心理侧写媒介?

现在我们已经知道了内部攻击者通常具有高神经质与低宜人性和尽责性,接下来该如何选择侧写媒介呢?

传统的侧写媒介依托于统一的问卷调查或他人评价,但是问卷调查的结果往往可信度有限,比如答题者可以有意识控制问卷的分数;上司或者同事的评价也多少会带有主观性,不能作为绝对数据采信。那么应当如何进行隐蔽的“问卷调查”呢?

由于研究大五人格通用的方法是基于用户的词汇数据,具体到内部威胁检测场景中,我们可以使用内部可以审计得到的所有用户语言信息,比如访问的Web页面、Email信息、文件内容等。由于Web页面的内容更适合对用户进行兴趣分析,文件内容通常涉及许多工作文档,有许多格式化的语句,导致其反映用户自身心理特质关联度不高,故而首选借助用户发送的邮件语言信息侧写其大五人格特质。通过这种方式,可以在用户不自觉的情况下自动进行后台的邮件内容分析,侧写用户的心理特征,从而识别出潜在的内部攻击者。

四、一种基于统计分析的朴素分类器

在获取了用户发送的邮件文本内容的基础上,需要进一步建立语言数据到大五人格的映射。常用的工具自然是LIWC ,该工具主要统计文本中特定词汇(代名词、情绪词、认知词等)出现的频率,以此作为媒介探究反映用户的心理特征,更多信息大家自行度娘即可。

基于国外的研究工作,我们从几十个LIWC基本词类中挑选出可以表征用户的神经质、宜人性以及尽责性的基本词类,详细列在表1中(N-神经质,A-宜人性,C-尽责性),其中表明了每种人格特质与基本的LIWC词类的统计关系(正相关/负相关)。

LIWC词类与大五人格 

表1:LIWC词类与大五人格

为了进一步验证上述映射是否可行,我们先提出一个基于统计分析的朴素分类器,后期在实际应用中可以不断更新改进。这个朴素的分类器主要通过以下步骤建立:

1.选取特定时间窗口(如一个月、半年等),提取每个用户该时间窗口内的发送的邮件文本内容聚合成一个大文本文件

2. 利用LIWC提取计算该文本文件中LIWC基本词类的词频

3. 基于表1选中的基本词类,分别将统计显著关联的基本词类频率相加得到对应的神经质、宜人性、尽责性的总词频,作为对应的特质分数4.  对所有用户的三个分数分别计算Z分数=(原分数-均值)/ 标准差

这里检测前需要引入我们的统计假设,即假设内部用户全体的大五人格总体应该呈现正态分布。尤其使用Z分数分别处理神经质、宜人性和尽责性三个人格特质分数后,原分布转换为标准正态分布。基于标准正态分布的样本分布规律,相对期望值的偏移超过3倍标准差的样本应小于1%,我们以此作为人格异常用户的标准。设定偏移3为异常阈值,小于或者大于3的特质分数标记为异常。

例如,用户A的邮件文本文件经过LIWC后得到27个基本词类词频,然后分别计算出对应的神经质、宜人性、尽责性分数,并Z分数化,得到(3.1, 0.3, -4.1),则其神经质与尽责性的分数均偏移超过了3,该用户标记为异常。默认情况下,只要用户的两个特质异常时,我们就保守地认为该用户异常。

五、验证实验

为了验证上述分类器,当然不能在真实的用户数据上进行(仿佛看到了同事投来的杀气。。。),因此作为可行性验证只需要使用公开数据集即可。这里我们使用了安然邮件数据集(Enron Email Data)。

5.1 实验数据

为了测试分类器检测能力,我们引入三个真实内部攻击者的文本数据。第一类正例用于代表内部信息窃取者的人格特征,样本来自于著名的美国中央情报局中的前苏联间谍奥尔德里奇·埃姆斯(803个词)。第二类用于代表内部破坏攻击者的人格特征,样本来自于臭名昭著的炸弹客希尔多·卡辛斯基(35901个词)。最后一类则代表内部欺诈者的人格特征,样本来自于受贿的美国前州长罗德·布拉戈耶维奇(8386个词)。文本数据来自于这些攻击者公开可得的文本数据,比如邮件、论文等。接下来要看我们的统计分类器是否能够从大量Enron邮件用户中区分出上述用户。

5.2 主要结论

我们第一个实验结果显示出了针对添加的三个用户的神经质、宜人性以及尽责性的特质分数计算结果,可以看出对于前两类攻击而言,其相关特质分数均超过了我们的阈值3,可以明显作为异常检测(表2)

攻击者心理特质分数

表2:攻击者心理特质分数

需要注意的是,对于第一类和第二类攻击者而言,其神经质与尽责性的分数均超出了阈值,作为异常报警。然而其宜人性也相对高于大多数人,表明其与人相处的模式比较正常,该结论也验证了其攻击者的行为特征,作为间谍往往需要高超的隐藏自己的技术,而炸弹客长时间未被抓获的一个原因也是由于其为人处世并不怪异,开始容易排除出嫌疑范围。

那么上述方法的误报率如何呢?我们给出从神经质与尽责性两个维度的所有用户的心理特质分数,可以看出红色标识的异常即为上述前两类攻击者,可以有效区分出潜在恶意用户同时误报很少(图2-3).

神经质分数

图2:神经质分数

尽责性分数

图3:尽责性分数

在上述结果中进一步分析特定LIWC词类的作用,以神经质为例绘制图4,可以看出anxiety\anger\negtive emotion等词类发挥着区分识别的重要作用。

心灵侦探:浅析内部攻击者的心理侧写方法

5.3 不足

虽然这里的分类方法仅仅通过基础的Z分数计算与简单的统计假设,却对于两类内部威胁攻击者有着很好的区分度。然而,对于第三类(欺诈:贪污受贿)类的攻击者而言,三个特质分数均不明显。因此,上述分析方法仍然略显粗糙,无法细粒度反映第三类攻击者的心理特征,亟需改进。

六、小结

本文中我们主要向大家介绍了一种从用户心理特征维度预测、识别潜在攻击者的方法。作为现有行为分析的有益补充,心理侧写方法可以提供更多对于攻击动机、攻击倾向的分析与证据,从而帮助我们差异化分析用户行为异常。出于隐私保护的考虑(咳,咳,同事们都很配合,知道后都愿意主动提供自己的邮件数据。。。嗯。。。),我们首先使用公开的安然邮件数据集作为可行性验证实验。实验结果验证了从心理特征角度区分潜在攻击者的可行性,但是也发现了本文中的心理特征提取方法仍显粗糙,无法有效区分欺诈类的攻击。对于该问题,需要对心理特征进行改进和优化。

另外,最近大Boss终于同意在公司内部统一部署邮件审计,看来下一步分析测试的数据问题应该不大了,但是,为何我后背好冷~~~

参考资料

1. LIWC项目:http://liwc.wpengine.com/

2. Enron Email Dataset:http://www.cs.cmu.edu/~enron/

3. 内部威胁那些事儿:http://www.freebuf.com/news/topnews/104030.html

4. 内部威胁检测研究. 信息安全学报, 2016

5. The CERT Guide to Insider Threats: How to Prevent, Detect, and Respond to Information Technology Crimes[M]. Addison-Wesley Professional, 2012

6. Towards a conceptual model and reasoning structure for insider threat detection,2013

*本文作者:木千之,转载请注明来自FreeBuf.COM

来源:freebuf.com 2018-05-11 08:00:18 by: 木千之

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论