【研究池】调查探索开源网络情报,实现更智能的密码破解 – 作者:FYosint

图片

本文由福韵君首发于福韵 网络情报研究

关键词

开源网络情报;密码安全;基于上下文的密码破解;数字调查

目录

摘要

1. 简介

2. 执法实践

2.1 数字化和取证调查

2.2 数字取证的挑战

2.2.1 技术挑战

2.2.2 法律挑战

2.2.3 资源挑战

3. 密码分析

3.1 密码趋势

3.2 密码强度

3.3 密码破解技术

4. 开源情报的演变

4.1 OSINT的类型/分类

4.1.1 HUMINT+社会工程

4.1.2 SOCMINT

4.2 OSINT如何对执法有用/L.E背景下的OSINT

4.2.1 社会和媒体监测

4.2.2 众包贡献

4.2.3 数字法证情报

4.2.4 OSINT工具:非详尽无遗的清单

4.2.5 法律和道德考虑

5. 结束语

5.1 未来的方向

// 摘要 //

从上个世纪末至今,消费者在网上的生活越来越多。在当今世界,普通人花了很大一部分时间通过多个平台在网上与人交流。这种在线活动导致人们自由分享越来越多的个人信息,同时必须管理如何分享这些信息。对于执法部门来说,这与大量对数字取证调查有价值的数字证据新来源相对应。

在个人电脑和移动设备上,消费者级别的加密已成为默认加密方式,再加上需要访问存储在第三方手中的信息,因此需要使用强大的密码破解技术来进行合法调查。然而,目前的密码破解技术是昂贵的,耗时的过程,并不能保证在调查常见的时限内成功。

本文探索了利用开源网络情报(OSINT)进行更有效密码破解的潜力。对密码强度、密码破解和OSINT的文献进行了全面的调查,并讨论了这些问题所面临的执法挑战。此外,还分析了密码结构和人口因素对密码选择的影响。最后,讨论了OSINT对执法部门密码破解的潜在影响。

1.简介

我们的社会在不断发展。互联网的出现通常被认为是我们文明的关键转折点,就像控制火一样。尽管这一点值得商榷,但不是这样的技术逻辑的进步为我们的数字世界带来重大变化打开了大门,带来巨大的机遇和新的挑战。这种演变通常被称为现代社会的数字化转型。我们生活的方方面面几乎都受到了这种变化的影响。

执法机构因此受到了现代数字世界的影响。执法机构已经从开发新的解决方案中受益,以存储、交换和方便获取信息和工具。这些新的解决方案可以作为促进者和推动者,改变他们在进行调查以预防犯罪或在犯罪发生后作出反应时所应用的更传统的程序。

在出现这些新机会的同时,这种数字化转型也给执法工作带来了新的挑战,为犯罪分子提供了新的机会和手段。现在,犯罪有时完全在网上进行,如僵尸网络利用和勒索软件。数字世界可以成为出售和交换非法材料的渠道,如毒品和武器的交易平台,或交换儿童性虐待材料。不管是哪种犯罪,执法部门面临的共同挑战是,静止或传输中的数据要受到加密保护(Du等,2020)。恢复清晰的数据往往是正确进行调查或起诉罪犯的关键。

我们如何处理加密?针对加密方法本身的直接攻击通常是不可能的,因为现在每个人都可以使用统一和标准的方法。然而,现有的解决方案通常是基于密码的,特别是在静态数据场景中(数据传输中使用的加密方法对用户是完全透明的)。密码是整个安全链中最薄弱的环节,因为众所周知,人类密码的平均值有些薄弱(Taneski等人,2019)。密码破解技术通常设计为生成模仿最常见密码或模式的通用候选密码。这种方法通常足以在渗透测试期间评估系统的平均安全级别。一次命中(意味着任何用户的密码)可能足以破坏系统。

执法则是另一种情况,因为它们关注的一个或多个用户组。虽然一般的密码破解技术可以保持成功,但在处理加密材料时,他们可以从更有针对性的方法中获益。人类倾向于生成易于记忆的密码(Kuo等人,2006)。一种常见的方法是在密码中使用个人信息,比如被通缉的黑客杰里米•哈蒙德(Jeremy Hammond),他在密码中使用了他的猫的名字1。然而,还有两个挑战尚未解决:

  • 最先进的密码破解工具如何从有针对性的方法中获益?

  • 有针对性的方法如何帮助执法部门打击数字犯罪?

这篇论文有三方面的贡献。第2节将更精确地描述数字化转型如何影响执法部门的调查过程以及他们目前可用的处理加密材料的技术。其次,在第3节中对当前的密码破解技术和密码洞察进行了分析。第三,第4节是关于LEA和OSINT这两个世界的融合。对现有的OSINT工具进行了调查和比较,主要集中在与目标相关的上下文信息收集方面。最后,我们就如何具体改进侦查技术和达到这一点所面临的的潜在挑战表达了我们的看法。

目前已经有大量关于密码破解的调查论文,对密码破解方法进行了分析,对强度估计器进行了评估(Hu,2017),并提出了对策建议(Han等,2014)。我们的文献综述的创新之处将用户的密码倾向和反情报结合在一起,我们介绍了LEA现在的使用以及它作为密码破解尝试中附加元素的潜在有用性。为此,我们确定了进一步的研究方向,即如何利用免费获得的信息,以便采取有针对性的办法。

2.执法实践

2.1数字化和取证调查

自数字时代以来,在犯罪现场收集的物证并不是执法调查员可以使用的唯一工具。大量的数字证据,如在物理现场收集的:硬盘、电脑、智能设备提供的信息,如GPS定位和发射塔信号数据、嫌疑人的兴趣爱好、密切接触者的信息等,可以给调查人员提供有用的帮助。如今,金融诈骗、人口贩卖和儿童色情传播等犯罪活动都可以在网上组织和实施。因此,研究者提出了许多处理数字证据的协议和程序,涵盖了yber和传统调查过程中的所有步骤。Du等人(2017)认为,数字调查的典型阶段是:

1.鉴定:第一阶段是确定事件或犯罪的细节以及可能需要审查的相关证据。例如,在房屋搜查中,所有属于嫌疑人的数码设备都必须被识别出来,以便在下一步收集。

2.保存:这一阶段是通过拍照保存犯罪现场和证据,对证据进行保管等。如果证据必须预先提交给法庭,这是调查从头到尾的一个重要步骤。

3.收集:在调查的这一阶段,从犯罪现场收集被认为相关的数字证据。这通常是通过使用特殊的取证设备和软件对电子设备进行成像,以避免以任何方式改变其内容。

4.分析:这是调查人员解释、分析和组织他们获得的证据并“建立他们的案件”的阶段。

5.报告/陈述:最后一个阶段是指向法院或其他当局提交调查结果。需要考虑的一个重要细节是,在这一阶段呈现的结果必须是其他研究者可以重复的,才能被接受。

除了上述数字调查的典型阶段外,首席警官协会(ACPO)已经为数字证据提供了一个良好的实践指南,其中包括众所周知的ACPO原则,每个从业者在处理数字证据时都必须遵循这些原则(Williams,2012)。本指南最近一次更新是在2012年。

2.2数字取证的挑战

尽管在处理数字证据和进行数字取证方面已经建立了许多流程和程序,但该领域仍存在许多挑战,阻碍了数字取证专家及时获取和处理数字证据的努力。在过去的几年里,已经做了相当多的努力来识别、分类和分析当前数字取证社区面临的挑战,以及展望未来的趋势。Al Fahdi等人(2013)对数字取证从业者进行了一项调查,他们绝大多数预测未来调查的复杂性将会增加。

另一项对从业人员的调查显示,各种挑战都存在:从技术(对云取证的更高支持)到法律(隐私法)和教育挑战(Harichandran等人,2016)。Karie和Venter(2015)提出了该领域当前挑战的分类,而Lillis等人(2016)旨在定义数字取证的未来研究领域。一般来说,不同类别的挑战分为三类,即技术挑战、有关法律的挑战和有关资源的挑战。

2.2.1技术挑战

由于数字犯罪的快速增长,再加上这些犯罪中被查获的设备数量以及这些设备的数据存储量不断增加,每次调查可能会获得大量需要分析的设备和数据(Qick和hoo, 2014), 由于设备加密而增加了复杂性。

事实上,根据Safaei等人(2017)的研究,到2025年,每个人在日常生活中使用的设备将超过9台。这会导致案件积压长达四年之久,导致LEAs无法及时处理证据,甚至可能导致案件被撤销(Scanlon, 2016)。增加待办事项的另一个原因是,我们日常生活中使用的物联网(IoT)设备越来越多,以及云服务的使用越来越多(Lillis等人,2016),详见下文。

物联网取证。我们社会的数字化带来的一个后果是,围绕每个人的物联网和智能设备越来越多。这种增长带来了隐私和安全问题,因为已经在这些设备中发现了威胁和漏洞,例如拒绝服务(DoS)攻击、欺骗、窃听等(Nawir等人,2016年)。

从另一个角度来看,这些设备及其收集和处理的数据构成了执法信息的金矿(Sayakkara等人,2019年)。在2019年对数字取证从业人员的调查中发现,他们中的许多人已经在工作中遇到物联网设备,但感觉在检查这些设备方面训练不足(Wu等人,2019年)。为此,必须确定物联网设备取证调查的具体程序,以便在不影响现有积压的情况下利用这些数据。

云取证。随着越来越多的公司转向云计算,由于其成本更低、故障排除更容易,在云上执行数字取证的优势也更加明显。Ruan等人(2011)将云取证定义为“作为网络取证的一个子集,数字取证在云计算中的应用”。

因此,对于数字取证调查人员来说,能够将他们在数字设备中使用的相同技术和程序应用到云上是非常重要的。为此,Ruan等人(2013)与数字取证专家进行了一项调查,以分析当前该行业在云取证程序、工具和调查方面面临的问题和挑战,并确定未来的研发机会。与会者声称,妨碍调查的一些挑战包括证据隔离和缺乏获取实物数据的途径。

此外,Manral等人(2019)根据调查人员在调查过程中遇到的步骤,对云数字取证挑战进行了总结和分组。其中一些特定于云取证的挑战包括处理管辖权问题和熟悉不同的云架构。

2.2.2法律挑战

当涉及到数字调查时,执法部门面临的一个挑战是确保他们能够保证数字证据在法庭上的可接受性。这就意味着,数字调查过程的正确程序必须在调查的每一个环节顺利进行,比如确保证据的正确收集和保管链的保持。

如何对数字证据进行正确的评估和报告,以确定其合法性和可采性,是执法部门面临的一个挑战。这一挑战与第2.1节中所述的数字调查过程的正确后续工作直接相关。反取证是对数字证据进行正确评估和报告的另一个障碍。Liu和Brown(2006)将反取证定义为“将科学方法应用于数字媒体,使事实信息无效,用于司法审查”。其目标是使调查人员收集数字证据变得更加复杂,并/或使他们的发现无效。它被犯罪分子用作一种减轻犯罪结果的方法,以找到能归罪于他们的证据。

2.2.3资源挑战

当涉及到人员挑战时,必须进行数字取证的警察大多没有接受过充分的培训,不知道如何使用取证分析设备和根据既定程序处理证据(Bowcott,2018)。英国下议院司法委员会(House of Commons Justice Committee, 2018)表示,出现这种情况的原因是资金短缺。此外,在许多情况下,没有足够的可用人员来实际处理取证分析案件。

3.密码分析

就数字调查而言,通常情况下,执法人员会发现,在进行调查的过程中,进入数字设备或计算机系统是最重要的。基于密码的方案通常保护对这些设备的访问,因为它们仍然是当今最常用的身份验证方法,而且不太可能在未来几年消失(Bonneau等人,2012)。

一方面大力加强这些机制,强制用户选择安全密码;另一方面,改进密码破解技术,以获得经常非法访问系统的权限。人们普遍认为,黑客总是比防御者领先一步,有时防御者会受到惩罚(Maqbool等人,2020)。然而,这两种方法都有利于执法,有助于调查的成功。本节概述了这一研究领域。

3.1密码趋势

密码是一系列字母数字和/或特殊字符,用于验证用户是否有权访问计算机系统、应用程序或在线服务。用户需要记住的密码的平均数量在不断变化,并且差异很大,从一项在线调查中的27个,到另一个调查中的2个到191个。不幸的是,用户很难回忆和管理他们维护的所有帐户的密码,这会导致固有的安全问题(Bonneau等人,2012;Zimmermann和Gerber,2020年;Stobert和Biddle,2013年)。

要记忆的密码数量不断增加的一个典型后果是,用户要么选择容易记住但又很弱的密码(Florencio和Herley,2007),要么重复使用他们潜在的复杂密码(Stobert and Biddle,2014;Wash等人,2016),有时会进行一些小的修改,或者仅仅遵循预定义的构造过程(Haque et al.,2014)。

一项研究显示,80%的用户在可能的情况下保留了当前密码,而16%的用户将当前密码更改为他们在另一个网站上使用的密码,只有4%的用户将其更改为全新的密码(Bang等人,2012)。当考虑到数据泄露时,密码重用所带来的最大安全问题之一就会发生。

根据欧盟的一般数据保护条例(GDPR),当他们正在使用的服务受到威胁时,会通知4个用户,并强烈鼓励他们更新其凭据。但是,即使用户这样做了,受相同密码保护的用户的其他帐户仍然存在风险。据报道,仅在2019年的前9个月,就有近80亿条记录在各种数据泄露事件中被泄露(Turner,2020),这可能为许多其他服务打开大门,其中一些对用户或社会至关重要。

正如美国一项针对不同背景和年龄的用户的调查所揭示的那样(Ur等,2016),用户对密码安全的理解普遍存在偏差。正如本研究所强调的,参与者高估了在密码中增加数字所获得的安全性提升,而低估了使用键盘模式和常用短语的可预测性。在Ur等人(2015)的一项调查中,参与者不仅高估了在密码末尾附加符号或数字所增加的安全性,还选择重复使用密码或密码元素。另一个常见的现象是用户选择的密码中融入了个人信息。

Liu等人(2014)的一项研究对中国用户的2000多万条数据进行了分析,发现专业人士使用的密码平均长度为8-11位,而学生则倾向于使用较短的密码。在密码的复杂度方面,他们得出的结论是,超过50%的用户的密码只有数字,只有不到30%的用户密码与特殊字符组合。

分析还显示,超过12%的职业用户在密码中加入生日和手机号码,更有11.5%的用户使用其用户名和电子邮箱来创建密码。在另一项对中文密码的研究中(Han等,2017),单纯使用拼音或与日期、数字结合使用的占26%,这似乎说明英文字符的使用很普遍。还有人指出,在纯拼音密码的情况下,他们只用2-4个汉字构建。

在北马其顿的一项密码案例研究中,分析了近期高中毕业生的密码数据集,发现其中包含的密码比与其比较的已经很弱的基线数据集更弱(Cvetkovski和Esposito,2019)。作者表明这是密码安全习惯和文化素养之间直接联系的结果。

通常,用户创建的密码包含熟悉的模型,包括感情、姓名、日期和地点的表达。Veras等人(2014)证明了这一点,他们的语义方法与最先进的方法相比,显著提高了恢复密码的数量。Veras等人(2012),专注于密码中数字,尤其是日期的语义,发现Rock You数据集中4.5%的密码都是日期。在Kuo等人(2006)中,作者创建了一个调查,要求用户输入常规密码或由短语和句子构建的记忆密码。他们发现,大多数的记忆密码都包含外部信息,而对照组中只有13%的参与者也这样做。

以中国用户为例,Zeng等(2019)对三个不同的数据集进行了情感分析,发现情感(且以积极的居多)比其他信息(如地名)更容易被选择。

基于有意义的常用词、个人信息和模式的密码被认为是更容易记忆的(Alomari等人,2019)。此外,文化和原籍国似乎在密码选择中发挥了重要作用(AlSabah等人,2018)。此外,在金融和电子邮件账户的情况下,用户似乎愿意接受更困难的身份验证方法,但对于不经常使用的网络账户则不然(Alomari和Thorpe,2019)。与智能手机或平板电脑相比,他们也更愿意接受PC上更严格的密码政策,并选择更安全的密码(Von Zezschwitz等人,2014)。

最后,一项研究比较了动态个性化密码策略(DPPP)与常用密码策略(DPPP),前者在提示用户形成安全密码时考虑了用户的个性特征,后者与常用的密码策略进行了比较,结果表明前者的密码更能抵抗猜测攻击(Guo等人,2020年)。

3.2. 密码强度

攻击者深知人们选择的密码的弱点,他们的目的是猜测密码,以获取服务或数据(Carnavalet和Mannan,2015年)。因此,更好地保护服务的一种方法是确保用户选择的密码能够抵御潜在攻击者的努力。因此,在这种情况下需要密码度量,提供密码强度的衡量标准。这样的分数可以是所使用密码的长度、复杂度和不可预测性的综合结果,或者试图评估攻击者在检索密码之前应该进行的猜测次数(网络安全和基础设施安全机构(CISA),2009)。这些指标有很大的差异,因为有研究表明,在不同的仪表中检查相同的密码,可以给出高度不一致的强度结果(Carnavalet和Mannan,2015)。

许多流行的网络服务在用户创建新密码时使用密码强度计算反馈,这可能会影响用户在创建密码时的行为。严格的口令表迫使用户花费较长的时间来创建和修改密码,直到他们满足要求,但他们也觉得口令表很麻烦,在某些情况下,他们没有注意满足口令表的要求(Ur et al., 2012)。

除此之外,这种程序给用户创建和记忆密码造成了很大的困难(Kuo等人,2006)。弱密码可以被记住,但强密码更有可能被写下来(Gołofit,2007;Renaud和De Angeli,2009)。因此,基于知识的认证方法存在着固有的弱点。在Brown等人的研究中(Brown et al. (2004)),15%的电子邮件访问密码都是分配给用户的,而他们并没有自己生成密码。最后,Komanduri等人(2011)得出结论,密码熵的增加往往与可用性的降低相关,这表明在这两个方面之间有一个权衡。

各种关于在创建密码时考虑到加强密码的技术已经被提出。信息技术管理员通常提出的最简单的方法是对密码的长度和所使用的字符类型作出无弹性的规定,以及在系统锁定用户之前对输入错误的凭证次数作出特定的容忍。

更复杂的方法,如创建基于记忆短语的密码是另一种建议的方法,用户通常取一个有利的、易记的短语的每个字的第一个字母,创建一个新的密码。研究发现,大多数用户都是根据互联网上的短语来创建这些记忆密码的,这可能会造成密码强度的问题,特别是如果密码破解工具中包含了这种记忆词典的话(Kuo等人,2006)。

另一种可能性是使用图形密码(Thorpe和Van Oorschot,2004年;Birget等人,2003年)。与复杂的文字密码相比,用户更容易记住图片。图形密码可以作为文字密码之后的第二步验证,以加强验证过程。研究发现,用户更容易记住图形密码,而且时间更长(Tullis等人,2011)。

类似的是使用令牌,但它被认为是不方便和昂贵的(O’Gorman,2003)。它更适合于获得对本地机器的访问,在其他活动中实施需要很高的成本。此外,需要注意的是,使用密码作为备份或恢复选项不会轻易减少(Siddique等,2017)。最后,研究发现,密码安全培训可以弥补IT管理员和最终用户之间的差距(Charoen等,2008)。

IT设计者们创造了许多密码仪(Shay等人,2015),在互联网上可以找到许多免费的工具来检查给定密码的强度,如Passwordmeter,My1login和LastPass,卡巴斯基指出,千万不要输入你的真实密码。

关于包含在某些网页中的密码强度计,它们无法精确地评估一个人检索密码所需的猜测次数(Galbally等人,2014),因为这将需要大量的资源和时间。Yang等人(2015)指出,商业计量器需要改进,因为与其他计量器相比,它们提供的反馈不一致、不准确。传统上用于测量密码强度的熵被证明在涉及基于情报的攻击时是不够的(Mazurek等人,2013).在图形密码的情况下,Heidt和Aviv(2016)指出,大多数强度计量器错误地假设了模式特征之间的线性关系,并提出了一种新的计量器,考虑了模式的可猜测性。

这个领域的社群一直保持着活跃,最近设计了新的密码强度测量仪,每个测量仪都遵循不同的方法。Galbally等人(2014)利用一个庞大的公开的密码数据集,提出了一个灵活的概率框架,可以根据不同的环境或密码策略进行调整,并能够客观地测量给定密码的强度。Galbally等(2017)在实现两个新的概率马尔科夫链方法的基础上,合并了基于攻击的模块和基于启发式的模块,提出了一种多模态强度度量方法。Guo和Zhang(2018),提出了一种轻量级密码强度估计方法(LPSE),该方法在响应和存储空间方面表现优于其他现有的LPSE,同时提供了一个优秀的密码强度识别。

由于课题的复杂性,导致(Kelley等人,2012),提出了他们针对各种密码猜测算法评估密码强度的技术。他们的算法可以通过训练来提高对密码强度的认识。最被广泛接受的密码强度计之一是zxcvbn,它被Dropbox使用(Wheeler,2016)。这个强度计已经被用来评估来自39亿个泄露密码的数据集的密码强度。该测量计在五个等级之间对密码进行排名,从0到4,考虑了许多标准,其中一个标准是长度,从图1中可以看出。从图中可以看出,大部分处于第4级的较强密码都比其他级别的密码要长。

此外,为了量化用户密码中的个人信息量,Li等(2017)提出了Coverage,这是一个可以整合到现有密码仪中的指标。最后,强度计在预测非英文密码方面较弱。正如上一节所述,这是由于缺乏关于非英语用户/密码的数据集/研究的结果。Doucek等人(2020)试图通过调整zxcvbn以适应捷克语来解决这个问题。他们表明,通过加入捷克语词典,强度估计得到了改善,而且只要存在/能够生成适当的词典,这种修改可以适应其他语言。

图片

3.3 密码破解技术

检索密码并不是渗透系统的唯一解决方案,因为许多其他威胁可以被对手利用(Hassan,2019)。然而,考虑到大多数用户在创建密码时遵循常见的模式,检索密码的机会很高(Lehto和Neittaanmaki,€2018)。

如果目的是为了从用户集合中检索出一个成功的密码,而不是有针对性的密码,那么成功率会更大。有多种工具可用于执行这种密码破解过程,这不仅在合法调查方面有用,而且在渗透测试和账户恢复方面也有用。

恢复密码最直接的方法自然是尝试所有可能的组合,也就是所谓的穷尽式搜索或蛮力攻击。当寻求的密码较长和/或使用丰富的字母表,即带有特殊符号的字母数字时,这种资源密集型方法很快就会达到极限(Raza等人,2012)。

Hellman表(Hellman,1980),是一种时间-内存权衡,允许有效地检索单向函数的输入,可以用非常有效的方式检索密码。此后,人们对Hellman表提出了许多改进(Biryukov等,2005;Saran和Doganaksoy,2009;Thing和Ying,2009;Wang等,2013),尤其是2003年的Rainbow表(Oechslin,2003),在缩短时间跨度、提高检索效率、成功率、空间利用率等方面做了改进。目前,这种技术的对策传播得比较好,包括在计算存储值之前,将一个随机值与密码进行串联。由于潜在的盐值太多,除了在生成过程中对其进行整合外,预计算表无法适应这种值,使得这种任务无法完成。

字典攻击包括从给定的词表即字典中测试密码候选者。在对每个条目进行一些修改后,就可以对其进行测试,这些修改被称为篡改规则,如添加数字、字母大写等。这些规则的目的是模仿上一节所强调的用户倾向。这些规则可以是人工设计的,也可以从以前破解的密码中自动学习(Aggarwal等人,2018)。

与这种自动生成规则的方法类似,现代密码猜测方法依赖于机器学习方法,利用泄露数据库中大量的真实人选密码。概率无语境语法(PCFG)是这种现代方法的一个例子,最初发布于2009年(Weir等人,2009),最近的更新使其成为最成功的技术之一。这种方法基于字典攻击原理(Houshmand等人,2015),并专注于计算每个语法的概率(Jelinek等人,1992)。它们是基于马尔科夫链的,很多密码猜测工具都在利用它们。PCFGs模型是情境语法的变体,扩展了它们,类似于隐藏马尔可夫模型如何扩展常规语法(Jeong,2014)。

OMEN(Dürmuth等人,2015),是一个基于马尔可夫模型的密码破解器,它以递减的概率输出密码候选者,从而加快密码猜测过程。PRINCE9通过创建”组合词链”来利用一个输入词表。PassGan(Hitaj等,2019)是生成式对抗网络(Generative Adversarial Network,GAN)工具,它使用机器学习算法来代替人工生成的密码规则。

这些技术在用于恢复普通用户的密码时,成功率很高,因为这些技术的设计或训练都是为了再现普通人的行为。在考虑单个目标用户时,可能或应该考虑其他信息以提高成功率。一个简单的例子是,如果目标用户不讲英语,那么依靠英语单词表进行字典攻击的几率就会很低。

4. 开源情报的演变

正如第3节所强调的那样,已经做了很多工作来研究用户的密码习惯,结果表明,密码中往往包含了个人信息,如兴趣和个人细节。在寻求访问特定嫌疑人设备时,如果采取更有针对性的密码破解方法,执法部门可能会取得更好的效果。为此,开源情报(OSINT)可能是一个很好的信息来源。

美国情报界第301号指令(国家情报局,2006年)将 “开源信息 “定义为 “任何人都可以通过请求、购买或观察合法获得的公开的信息”,而”开源情报 “则是 “为满足特定情报需求而及时收集、利用和向适当受众传播的公开 的信息所产生的”。

OSINT技术出现在二战之前(Kott,2018;Mercado,2001,2009),当时被称为公开情报。主要来源是敌方报刊以及保持中立的国家的报刊(Kott,2018)。虽然可以说这种情报收集很少产生巨大的启示,但它提供了舆论以及生活状况的连贯形象(Kott,2018)。

如今,OSINT已经有了显著的发展,包括任何人都可以获得的大量在线来源,如互联网(社交网络、在线百科全书、whois域名记录等)、传统媒体(报纸、电视、广播)、学术出版物(期刊和会议记录)、灰色文献(技术报告、外交信息)、地理空间信息(谷歌地图和街景)、公开数据(政府报告、预算)等(Hassan和Hijazi,2018年;Thompson,2010年)。

OSINT最有用的特征之一是信息的数量和可用性(Bradbury,2011)。根据Roser等人(2019)的研究,互联网用户数量从2000年的4.13亿增加到2016年的34亿多。因此,每秒钟都会产生数以百万计的数据,互联网的数据量每两年就会翻一番以上(Turner等,2014)。这是一座信息金矿,但要对如此大量的数据进行分类,并将收集到的碎片转化为有价值的东西,也是一项巨大的任务。根据Burke(2007)的观点,情报可以被看作是源于对数据的分析和过滤,为特定目的产生有价值的东西的最终产品。

此外,信息提供的一个缺点是,不容易评估信息的质量,特别是当信息来自互联网时(Gibson,2004年)。这个问题并不是什么新问题,事实上,对于OSINT来说,这个问题也不是唯一的问题,因为情报机构长期以来一直采用关键词抽样和其他过滤技术来筛选大量的信息(Hulnick, 2002)。

另一方面,Miller(2018)提出了一个问题,即在互联网上可以轻易获得的信息是否可以称为情报。反对将OSINT归类为情报的理由是,它不是通过秘密手段获得的,也不像秘密获得的信息那样需要特殊处理。

4.1 OSINT的类型/分类

4.1.1. HUMINT+社会工程

《北约术语和定义》将HUMINT定义为 “从人类操作者收集的信息中获得的情报,主要由人类来源提供”(北约,2003年)。文献中的HUMINT通常是在个人进行间谍活动的情况下遇到的,但也可以是通过外交对话或联络利用获得的信息(Sano,2015年)。

社会工程与HUMINT类似,但侧重于社会互动。在Mouton等人(2014年)中,作者收集了现有的社会工程定义,并提出了一个更有条理的定义,即:””利用社会互动作为手段说服个人或组织遵守攻击者的特定要求的科学。”利用社会互动作为一种手段,说服个人或组织遵守攻击者提出的特定请求的科学,其中社会互动、说服或请求涉及计算机相关实体”。Hatfield(2018)提供了这一概念的演变过程,从19世纪在政治背景下首次出现到最终迁移到网络安全领域。根据Krombholz等人(2015)的观点,社会工程可以包括物理攻击(垃圾箱潜水)、社会攻击(诱导、使用所谓的权威)、反向社会工程(攻击者欺骗受害者与他们联系)、技术攻击(通常在互联网上进行),或者它们的组合。当然,由于社交媒体的使用越来越多,社交工程攻击自然会越来越多地集中在针对社交媒体上的用户。

4.1.2. SOCMINT

社会媒体情报是INT家族的最新成员之一,是由于21世纪初以来社会媒体的快速发展和日益增多的使用而变得必要。SOCMINT不同于其他传统形式的情报,因为它可以被看作是政治、经济和社会知识生产的起点(Donohue,2015)。由于犯罪的不断变化,它使旧的情报模式在这个新的数字时代变得不再强大。警察机构要与时俱进,积极主动地打击犯罪。

当SOCMINT应用于群体或个人以建立行为模式时,它就会变得更加有用(Ivan等人,2015)。如今,社交媒体不仅用于与人沟通,而且从组织社会kang议(Khondker,2011)到传播极端主义宣传(Nizzoli等人,2019)。出于这个原因,SOCMINT可以用来预测和识别在线威胁(Agarwal和Sureka,2015年;Nizzoli等人,2019年),以及深入了解群体关系和在线互动(Jaeger和Cavelty,2019年)。

不是将其描述为利用人群资源,而是将其描述为由公众收集调查线索以协助调查。众包有很多优势,比如成本较低,速度快,因为参与调查的人的网络更大,种类更多(业余和专业)。此外,众包具有灵活性,因为它不受时区、公共假期、官僚主义的阻碍,可以很容易地从本地规模扩展到全球规模(徐等,2016)。来自世界各地的用户可以在家中或办公室的电脑上参与众包活动,如监控或录像分析。Trottier(2014)介绍了来自英国的四个这样的案例研究。

4.2. OSINT如何对执法有用/L.E.背景下的OSINT

在数字时代之前,执法部门就已经在收集现有信息并利用这些信息生成有用的线索。在典型的犯罪调查过程中,他们利用通过传统来源获得的知识,如受害人和证人的陈述和物证,并根据这些知识采取行动,以解决犯罪问题。由于现有的渗透情报技术,这种证据的收集如今可以通过在线来源得到充实。此外,在调查期间,这些工具的金钱和人力成本都很低。

4.2.1. 社会和媒体监测

执法机构使用社会网络分析来确定犯罪网络不同实体之间的关系(Berlusconi等人,2016年)。SNA可以有效地收集证据,分析互动和在线活动,得出有关犯罪活动的信息,以及相关行为者的模式和联系。Van der Hulst(Van der Hulst,2009年)分析了SNA作为调查和情报工具的作用,并提出了处理网络数据的协议草案。

这种典型的程序有时可能会错过仅在网上找到的关键证据,证明为什么这种分析现在正在考虑在线来源,更具体地说,社交网络。将社交媒体资源整合到调查中,可以帮助警察做出更加明智的决定。这些来源也补充了他们已经通过传统手段获得的证据。

社交媒体可以成为数据和信息的汇聚点,这也正是社交媒体在OSINT调查中有用的地方(Marwick和Boyd,2011)。将社交媒体纳入执法人员的工具箱,通常是作为正在进行的调查的一部分,或作为预防措施,通过持续监测和数据获取。挖掘已知的恶意在线域。当然,社交媒体监测必须与OSINT调查同时进行,以丰富对特定目标的了解程度,并帮助验证信息的有效性(Bartlett等人,2013年)。

SOCMINT可以实时进行监测和干预某一局势(Ivan等,2015)。具有位置标记功能的社交媒体,如Snapchat和Instagram,以及最值得注意的具有标签功能的Twitter,可以提供关于某一主题的实时发展或特定地点的当前局势的有效图像。类似的方法还有对闭路电视(CCTV)录像的处理,无论是在刑事侦查过程中还是出于监控目的(Norris和Armstrong,1999)。

根据Trottier(2015)的观点,通过私人或公共手段对公共或半公共空间进行监控,使LEA能够掌握原本被认为是短暂的信息,并将其转化为情报。对开放源和社交媒体账户的在线监测也是如此,用户的互动方式与面对面的互动方式相同,不同的是,所交换的信息并不像言论那样短暂,而是永远储存在互联网上。

这些能力提供了几乎实时的信息,在调查期间可以起到决定性作用,有时可以做出即时反应(Staniforth,2016年)。犯罪分子在网上留下的数字痕迹可导致位置信息或犯罪活动的证据(Seigfried-Spellar和Leshney,2016年)。

4.2.2. 众包贡献

除了获取公开的信息外,执法部门还发现了在犯罪调查中利用公众的集体知识的优势。2013年4月波士顿马拉松爆炸案是众包在刑事调查中产生效果的一个很好的例子。公民在Twitter和Reddit等在线论坛上实时参与了自己对该案的调查(Nhan等,2017)。

通常,突破性的消息会在新闻机构报道之前到达Twitter。公民、业余爱好者和专业人士集中资源,研究爆炸案现场的照片和视频,并对收集到的证据进行法医分析。(Ungerleider,2017年)。虽然他们的努力并没有正确地确定罪犯的位置,但这对执法人员来说是一个有益的帮助,他们利用公众的线索和努力成功地查明并抓住了罪犯(Cunningham,2018年)。

有一些举措旨在利用众包的力量协助调查。最值得注意的是,欧洲刑警组织为帮助打击虐待儿童行为而采取的 “追踪与目标 “10 举措,要求个人检查涉及未成年人的性露骨材料图像背景中的物品,目的是查明该物品的来源。

另一项此类举措是TraffickCam,11该举措要求用户上传他们曾住过的旅馆的图像,以便建立一个旅馆房间数据库。然后,调查人员可以使用该数据库,将调查中找到的图像与数据库中的图像进行比较,以便找到犯罪地点。

当然,在犯罪调查中向公众寻求线索意味着你可能会面临大量的答复。在“追踪物品”倡议的第一年,欧洲刑警组织报告说,公民为119件物品发送了21,000条线索,结果总共确认了79件物品,在32个案件中,确认了生产国(EUROPOL,2018年)。不过这种压倒性的线索数量意味着LEA需要实施处理、过滤和评估这些信息的程序。其中一个案例是荷兰国家警察及其使用人工智能代理消息处理工具,关于他们通过国际刑警组织渠道收到的消息(Testerink等人,2019)。

4.2.3. 数字法证情报

从OSINT收集到的知识的应用可以与传统调查中已经收集到的信息相结合,其中一个来源辅助另一个来源。Quick和Choo(2018)提出了一个名为DFINT þ OSINT的框架,旨在将OSINT与之前使用的Digital forensic intelligence结合起来使用,目的是根据已经收集到的数据找到更有用的犯罪信息。

作者开发了一个名为DRbSi(Data Reduction by Selective imaging)的工具,减少了需要查看的数据量,还有一个实体提取器,可以处理DRbSi子集中发现的数据类型,并将它们合并成一个单一的来源。

图片

4.2.4. OSINT工具:非详尽无遗的清单

数字调查员可以利用现有的许多工具来补充其调查工作。除了付费工具外,还有各种在线的OSINT工具,可以快速收集和汇总信息,对调查有用。有大量的工具可供使用,其中许多是重复的或不再使用的。Awesome OSINT List12 和 OSINT Framework13 是两份有用的工具清单,其中不仅有对调查有用的工具,而且还有用于洞察市场的工具等。表1列出了调查人员在查看嫌疑人的网上存在时可能有用的工具的指示性清单。从该表中可以看出,这些工具可以为嫌疑人的在线存在提供有用的洞察,例如他们与之互动最多的用户,他们最关心的话题,甚至他们的睡眠模式。

4.2.5. 法律和道德考虑

然而,不应忽视OSINT,尤其是SOCMINT的潜在侵入性。需要就执法人员如何在尊重公民隐私和保密的情况下收集信息制定准则(Ivan等人,2015年)。通常情况下,警察可能寻找的信息可以在网上找到,但在隐私设置的安全网后面。有的情况下,这种数字限制是通过潜在嫌疑人的朋友来规避的,他可以获得这些信息,并将其提供给警察(Morrison,2020)。

此外,最重要的是,执法部门要检查所获得信息的有效性,确保信息准确无误后再采取行动(Cook等人,2013年)。对于OSINT调查,应采用与传统调查和数字调查类似的方法,即审计线索、监管链等。此外,处理和储存个人数据时应遵守调查所在国的法律。

5.结束语

本文件中提出的审查旨在强调数字调查中执法部门目前面临的挑战领域,并指出如何利用已经公开的信息来帮助推动这些调查。在审视当前数字调查期间访问受密码保护的系统所面临的挑战时,加密的挑战对调查人员构成了最大的障碍。如果不能及时取回密码,就会影响调查的迅速解决,甚至会让更多的犯罪行为发生。

目前对用户密码习惯的分析表明,人口统计学,如年龄、职业等,在密码选择中起着重要作用。用户在密码中包含的个人信息也是如此。此外,如果密码是用于被认为更重要/更敏感的账户,如网上银行或政府网站,用户选择的密码难度可能更大。最后,针对某些非英语国家用户的少数研究表明,针对特定语言的方法会产生更好的效果—即使只是在破解过程中加入该语言的简单词典。

这些因素的结合表明,在这一领域,了解特定用户或用户子集的目标信息可能有利于帮助进行更 “有教养的 “猜测和更聪明的字典攻击。与重要日期、姓氏、爱好和兴趣有关的关键词被认为比普通的字典词更有可能成为密码的一部分。通过利用这些上下文信息,我们可以为嫌疑人建立一个个性化的字典,并为他们量身定制破解过程。在侦查过程中,利用智能列表结合当前的密码破解工具,可以帮助警方侦查人员更快地破解密码。

在创建这类智能列表时,上下文化程度是另一个需要考虑的问题。根据目标以及成功与时间效率之间的权衡,在创建自定义词典的过程中,不同程度的上下文化,即纳入目标信息,值得探讨。

一个有效的基于上下文的方法需要信息提取过程的自动化。对于大多数互联网用户来说,互联网上的公开的信息可以用于这种基于上下文的方法,但收集、分析和提取有用的信息是我们面临的挑战。词嵌入或其他自然语言处理方法可能是解决这一自动化挑战的答案。

下一个需要回答的问题是:OSINT是否是必经之路?在本文中,我们提出了一份指示性清单,列出了现有的具有多种功能的OSINT工具,这些工具可以返回关于嫌疑人的有用信息。警方收集的数字证据可以通过OSINT来源得到加强,两者可以相互协助,这种方法可以使调查更加富有成效,更加迅速。

5.1. 未来的方向

要为执法部门提供一个创建更智能和个性化词典的工具,需要解决许多步骤和挑战。在这个特殊领域缺乏测试数据是其中之一(Kanta等人,2020)。因此,一个初步的步骤可能是专注于围绕同一主题收集的个人社区,如爱好允许收集和处理公共数据,以验证基于上下文的方法是否增加了成功率。这种方法可以设计出第一代基于OSINT的密码破解工具,对执法部门有利。

基于社区的方法可以成为在密码破解过程中整合目标信息这一挑战的垫脚石。建立以社区主题为中心的自定义词典的目标将促进评估过程,因为它不需要处理个人身份信息。因此,将对数字调查中背景的影响进行评估,并确定其潜在的有用性。

在利用OSINT和其他公开来源收集这些信息方面,有许多途径可以探索。对于基于社区的方法,创建针对特定主题的词典将是我们研究的下一步。从拥有共同特征的用户社区来看,我们相信围绕该特征建立的词典将比通用的英语词典能够恢复更多的密码。在创建这些自定义词典时,Wikipedia上的文章或专门针对该主题的论坛可以作为词典构建的起点。

此外,随着过程的发展,还可以从在线论坛、社交媒体和其他形式的OSINT中添加额外的来源来丰富词典。如上所述,背景化程度和进程将尽可能自动化,最终目标是数字调查员创建一个定制词典,作为调查进程的一部分。

附:报告原文获取请添加福韵君微信,并备注报告名称。

参考文献:本文所有参考文献说明见原文。

论文来源:Forensic Science International: Digital Investigation

封面来源:视觉中国

来源:freebuf.com 2021-07-30 09:39:48 by: FYosint

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论