暗数据的价值与安全风险 – 作者:中孚信息

云计算、大数据技术、移动互联网、物联网、人工智能、区块链等技术推动了人类社会从信息时代向数据时代的转变。数据经济成为推动全球经济增长的重要驱动力,数据作为数据经济的关键要素,其价值越来越受人瞩目。

引言 

2020年3月11日,号称“将数据转化为一切(Data-to-Everything)”的平台提供商Splunk公司宣布了对数据价值的一项研究结果[1],该研究探索了组织对数据的使用与其业务成功之间的相关性,这项覆盖全球的研究主题为“你的数据到底有什么价值?”。Splunk与企业战略集团(ESG)之间的这项联合研究调查了澳大利亚、中国、法国、德国、日本、英国和美国八个行业的1350位高级业务和IT决策者,通过量化跨组织数据的经济影响,来评判数据的价值。该研究发现:参与调查的组织通过更好地使用数据,大幅增加了收入,降低了运营成本,企业的平均毛利率提高了12.5%。

图片[1]-暗数据的价值与安全风险 – 作者:中孚信息-安全小百科

图1 Splunk 数据价值调研报告

调研结论表明:重视数据及其业务价值并且将暗数据(Dark data)的可操作性作为信息技术重中之重的组织,可以实现许多关键的业务和经济效益。

图片[2]-暗数据的价值与安全风险 – 作者:中孚信息-安全小百科

图2 Splunk 数据价值调研报告的主要结论

ESG根据现代分析工具和技能应用的普遍性、组织在操作数据方面的有效性等标准,对受访组织所处数据成熟度的不同阶段进行了划分:

阶段1:数据思考者(Data Deliberator)——处于数据策略实施初期的组织。

阶段2:数据采用者(Data adopters)——能够充分利用数据,但仍有改进空间的组织。

阶段3:数据创新者(Data innovators)——那些最重视数据战略,并制定了先进的战略以获取业务价值的组织。

调研结果表明,由于减少了暗数据的数量,过去12个月中不同阶段的组织收入平均发生了增长,而数据成熟度更高的数据创新组织收入更是增长了5.32%(见图3)。

图片[3]-暗数据的价值与安全风险 – 作者:中孚信息-安全小百科

图3 数据成熟度对组织收入的影响

事实上在此报告中,暗数据出现了有28次之多,可见本次调研对这一概念的重视程度。数据可以产生价值,这几乎众所周知了,那么暗数据是什么?为什么成了数据业务价值挖掘中的重点?

暗数据的概念和价值

遗留系统、孤立的业务单位以及不一致的数据标记和分类都会产生大量的暗数据,这些暗数据的存在将阻碍组织对其数据价值的挖掘。对于企业来说,业务中暗数据的存在可能会模糊对客户需求的了解,妨碍其对市场趋势的预测。

1.什么是暗数据

Gartner[2]将暗数据定义为组织在常规业务活动期间收集,处理和存储的信息资产,但通常无法将其用于其他目的(例如分析业务关系和直接获利)。与物理学中的暗物质相似,暗数据通常包含大多数组织的信息资产,因此,组织经常保留暗数据。

从数据处理的角度来看,暗数据往往是非结构化或半结构化数据:非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括所有格式的文档、文本、图片、各类报表、图像和音频/视频信息等等,技术实现上非结构化信息比结构化信息更难标准化和理解。换言之非结构化数据是未精炼的数据,需要更多的工作才能使它可用。结构化数据是已经确定数据用途的精炼数据。半结构化数据的数据量也非常巨大,并且以极快的速度在增加,种类包括了网页数据、XML格式数据、Json格式数据等,其中最具有代表性的是XML数据。如果说非结构化、半结构化和结构化数据是指数据的结构质量,暗数据则是指数据的可见质量。以微博数据为例,用户可见的数据包括微博照片、微博个人资料名称、标签等等,但是还有一些用户看不到的数据——这就是暗数据,微博中的暗数据可能是:

  • 用户有多少个登录实例?
  • 用户活动是否在一天中的某些时间聚集?
  • 有多少人喜欢这个用户的帖子?(以评估用户的影响力。)
  • 照片是从哪里拍摄的?
  • 他们张贴照片的人在哪里?

……当看到这些数据的人是数据分析工程师时,暗数据就变成了未经分析的非结构化或半结构化数据。例如:通过各种网络数据采集过程汇聚过来的日志数据,最终存储在服务器上和数据湖中,以满足行业合规要求或者仅是由于数据存储价格非常便宜而被保留了下来。还比如个人终端上由于学习或工作需求留存的大量文档,特别是缺乏良好文件管理习惯的人,各种文件往往没有附加描述性信息(比如向文件属性中添加描述性元数据信息),甚至连起的文件名称都有可能含混不清。这样不但在使用过程中搜索效率低下,而且由于管理的混乱,不同目录下可能会存放大量重复文档,很多文档可能就此会被遗忘,永远不会被再次使用,当然也不可能去删除它们,毕竟硬盘里有的是地方,久而久之就产生了“数据沼泽”。

IBM对数据沼泽的定义[3]:数据沼泽是一种设计不良、未充分归档或未有效维护的数据湖。这些缺陷损害了检索数据的能力,用户无法有效地分析和利用数据。尽管数据已经存在,但如果没有上下文元数据,数据沼泽就无法检索数据。

根据全球领先的云计算和IT管理解决方案提供商BMC统计,暗数据的类型包括:

图片[4]-暗数据的价值与安全风险 – 作者:中孚信息-安全小百科

图4 bmc对暗数据的分类

  • 日志文件(服务器,系统,体系结构等)

  • 以前的员工数据

  • 财务报表

  • 地理位置数据

  • 原始调查数据

  • 监控录像

  • 客户通话记录

  • 电子邮件

  • 注释、演示或旧文档

2.暗数据的价值

通常在评估组织数据的价值时(在某些行业中这种评估可能暗指组织本身的价值),往往针对的是数据仓库以及在日常业务和运营流程中起着至关重要作用的数据,除此以外还需要考虑到组织内暗数据的价值。

Gartner的咨询师Douglas Laney表示:“……人们经常存在一种误解,认为数据闲置时没有价值,而事实并非如此。就像放在仓库架子上的库存货物即使不使用时也有价值一样,闲置的信息资产也是如此。区别在于已实现价值与闲置资产价值的会计学定义,即是否考虑了其可能带来的未来经济利益”[4]。

暗数据所占的比例非常大,据IDC发布的《数据时代2025》报告显示,到2025年,全球数据量将会从2016年的16ZB上升至163ZB。在这些数据中,结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,日志文件、机器数据等又占据非结构化和半结构化数据的90%。

图片[5]-暗数据的价值与安全风险 – 作者:中孚信息-安全小百科

图5 暗数据在组织数据中的占比及相关组成

暗数据具有巨大的现在或未来价值,而组织要做的就是要弄清楚如何释放其潜力。一方面,数据的货币化需要考虑存储、分析、治理和集成的问题;另一方面,需要根据企业战略评估信息资产,从而实现在内部或外部充分利用其潜力的目的。根据估计,《财富》1000强公司的数据可访问性上增加10%,可以使公司的净收入额外增加6500万美元[5]。结构化数据虽然在工程应用上更方便、便捷,但其内涵的信息量有限。而随着人工智能技术的快速发展,组织可以使用各种数据分析工具从大量的非结构化数据中提取有价值的见解,从而有效推动业务决策,其中包括确定与产品或服务相关的问题、市场趋势或特定品牌的客户期望等。

暗数据带来的风险

大多数的暗数据不是故意隐藏的,而是维护和管理不当产生的。尽管许多组织都了解数据带来的价值,但是由于数据存储位置的分散和数据采集数量急剧增加,导致其对很多数据失去了控制。

2020年4月27日,网络安全供应商Netwrix宣布发布了《2020年数据风险与安全报告》[6]。这项研究对全球1045名受访者进行了调查,调查他们的组织在其生命周期的每个阶段如何处理敏感和受监管的数据,以发现常见的安全漏洞。该报告显示,数据存储是数据生命周期中最具挑战性的阶段。尽管大多数受访者(91%)表示确定自己的敏感数据已安全存储,但有25%的组织承认,他们在过去12个月中在安全存储区域之外发现了此类数据,而且在发现这些敏感数据之前,数据不受控的现象可能持续了若干天(占比43%)或若干周(占比23%),这意味着这些敏感数据这段时间内随时可能面临泄露风险。

图片[6]-暗数据的价值与安全风险 – 作者:中孚信息-安全小百科

图6 暗数据随数据量的增大而急速增加

查找暗数据并对其进行识别是对暗数据进行治理所面临的最大挑战。如果不知道某物是否存在,如何找到?其难度更甚于大海捞针,大海捞针至少了解要寻找什么。尝试查找暗数据更像是在完全黑暗的环境中探索,可能探索几天都不会发现任何东西,也有可能碰到某些数据,却也不知道它是什么。常规的数据分析工具在这个过程中可能会失效,这是因为大部分数据分析和商业智能工具都仅适用于结构化数据。

暗数据中失控的文档和个人信息会为组织带来大量风险。美国Delta Risk公司的约翰·斯特奇比姆遇到过两个典型事件可以说明这一问题[7]。第一个是他在对某部门非结构化数据文档进行梳理工作时,曾对文件服务器上的“工作目录”进行了分析。经过一些粗略的调查,他发现了208,000个文档和14,000个文件夹,文件夹层次结构深达13层。很难想到是谁创建了这么多的目录层次,同时保存了2004年以来大量的历史文档。这些文档是否包括敏感信息或个人隐私?有谁曾经访问过这些文档?这些问题都不得而知。在另一个实例中,他与人力资源专员一起审查关键的组织文档,其中一个电子表格中包含了每个人的姓名、地址、电话号码、甚至血型以及其他个人信息,该表格以不带描述性的名称保存在共享驱动器上,因此“没人知道它是什么”,也就无法对其进行有效监管和防护,如果攻击者进入网络,可以很容易地找到该文件,并使用这些个人详细信息进行网络钓鱼攻击,甚至尝试敲诈。

互联网上的大量匿名信息也属于暗数据,这些匿名数据可能导致无法想象的隐私泄露。事实上,公开数据只能做到某种程度上的匿名,通过极其少量的外部确认信息,比如时空数据点,一些数据使用者就能够反向推断出匿名信息所属的具体个人。有研究表明,五个匿名数据点就可以构成一个标识符,形成匿名者在世界上的唯一身份印记。其原理是匿名人员的信息存在多组数据中,当这些数据集具有相交的数据点时,将这不同数据集进行交叉引用,创建包含不同数据源的维恩图并查找重叠数据源后,就可以获得这个匿名者的识别信息。

图片[7]-暗数据的价值与安全风险 – 作者:中孚信息-安全小百科

图7 维恩图分析原理

一个由7位科学家组成的研究小组在Defcon上也提出了类似的案例[8]。他们购买了大量的匿名浏览数据,仅基于五个数据点就可以识别特定用户。该图中的数字代表在添加每个已知数据点之后,浏览数据可能属于多少个用户。

图片[8]-暗数据的价值与安全风险 – 作者:中孚信息-安全小百科

图8 匿名数据添加数据点后的快速聚合过程

解决方案

无论数据位于何处,都应该对数据进行分类,以使得组织能够快速扫描和标记数据,确保敏感或危险信息得到适当的管理和保护。对数据的这种广泛可见性有助于组织实施严格的数据保护措施。公有云和移动环境更是数据安全性中最薄弱的环节,这些环境中的大部分数据极有可能未被分类,也就无法受到妥善的保护。

当数据分散在整个组织中而没有被正确标记时,往往缺乏妥善的保护措施,那么很有可能成为网络犯罪分子和勒索软件攻击的诱人目标,从而被窃取或被组织内部人员泄露。组织对所拥有数据的了解越多就越能判断其价值或风险,然而大型企业或部门可能拥有数十亿个数据文件,手动对数据进行分类和标记已超出了人类的能力,必须利用具有机器学习算法的数据管理工具以帮助管理。

作为人工智能的一个分支,自然语言处理(NLP)被称为计算语言学,是计算机科学与语言学的交叉学科,同时也被视为暗数据问题解决的有效手段。

NLP = NLU + NLG

即NaturalLanguageProcessing=Natural Language Understanding + Natural Language Generation

自然语言处理 = 自然语言理解 + 自然语言生成

NLP技术能够基于用户自然语言形式的输入,通过机器学习(ML)等人工智能算法进行加工、计算等系列操作,达到自动处理文本并识别重复模式的目的,实现对自然语言的理解过程,并返回用户所期望的结果。NLP主要包括文本检索、机器翻译、文本分类/情感分析、信息抽取、序列标注、文本摘要、问答系统、对话系统、知识图谱、文本聚类等领域,涉及分词、词性标注、句法分析、词干提取、命名实体识别、指代消歧、关键词抽取、词向量与词嵌入、文本生成等技术。

中孚智能辅助定密管理系统能够帮助用户快速对非结构化文档数据进行识别,辅助完成文档的涉密内容分析工作,避免造成暗数据的堆积。该系统利用机器学习和语义分析等技术,可依据行业定密依据,对文件内容中包含的密点进行快速查找匹配,解决了定密工作中定密不准、定密不细等诸多问题,大大提高定密工作效率,满足定密的规范化、标准化和精准化需求。

主要功能

● 密点标注:支持对目标文件中的选定内容进行标注,支持用户选择定密依据,并可对文件密点进行增、删、改、查操作。

● 定密辅助:可对目标文件内容进行智能分析,自动标注密点并匹配密级和定密依据,并支持人工修正。

● 知识管理:通过密点标注和机器学习,可形成符合组织特性的密点知识库,支持知识库级联同步和离线多库融合,满足联网和离线单机等多种场景需求。

● 应用集成:系统可单独部署使用,也可与金山办公软件、微软办公软件进行无缝集成,并可与公司密级标志系统进行集成应用。

参考文献

[1]https://www.splunk.com/en_us/form/whats-your-data-really-worth.html

[2]https://www.gartner.com/en/information-technology/glossary/dark-data

[3] https://developer.ibm.com/zh/articles/ba-data-becomes-knowledge-2/

[4]https://www.forbes.com/sites/gartnergroup/2012/05/22/infonomics-the-practice-of-information-economics/

[5]https://www.forbes.com/sites/larrymyler/2017/07/11/better-data-quality-equals-higher-marketing-roi/#7497d3757b68

[6]https://www.netwrix.com/2020datariskandsecurityreport.html

[7]https://deltarisk.com/blog/risks-of-unstructured-data-is-your-data-secure-part-i/

[8]https://www.bmc.com/blogs/dark-data/

冯静 李玲/中孚信息(北京)研究院

来源:freebuf.com 2020-10-26 10:47:46 by: 中孚信息

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论