《数据安全能力成熟度模型》实践指南11：数据分析安全

《信息安全技术数据安全能力成熟度模型》（GB/T 37988-2019）简称DSMM正式成为国标对外发布，并已正式实施。美创科技将以DSMM数据安全治理思路为依托，针对各过程域，基于充分定义级视角（3级），提供数据安全建设实践建议，形成系列文章。本文作为数据安全能力成熟度模型系列第十一篇文章，将介绍数据处理安全阶段的数据分析安全过程域（PA11）。拨打美创服务热线4008113777，了解更多。

一、定义

数据分析安全，DSMM官方描述定义为通过在数据分析过程采取适当的安全控制措施，防止数据挖掘、分析过程中有价值信息和个人隐私泄漏的安全风险。

DSMM标准在充分定义级对数据分析安全要求如下：

1、组织建设

美创科技专家建议组织应设立负责数据分析安全的岗位和人员，负责整体的数据分析安全原则制定、提供相应技术支持。

2、制度流程

① 应明确数据处理与分析过程的安全规范，覆盖构建数据仓库、建模、分析、挖掘、展现等方面的安全要求，明确个人信息保护、数据获取方式、访问接口、授权机制、分析逻辑安全、分析结果安全等内容；

② 应明确数据分析安全审核流程，对数据分析的数据源、数据分析需求、分析逻辑进行审核，以确保数据分析目的、分析操作等当面的正当性；

③ 应采取必要的监控审计措施，确保实际进行的分析操作与分析结果使用与其声明的一致，整体保证数据分析的预期不会超过相关分析团队对数据的权限范围；

④ 应明确数据分析结果输出和使用的安全审核、合规评估和授权流程,防止数据分析结果输出造成安全风险；

3、技术工具

① 在针对个人信息的数据分析中，组织应采用多种技术手段以降低数据分析过程中的隐私泄漏风险，如差分隐私保护、K匿名；

② 应记录并保存数据处理与分析过程中对个人信息、重要数据等敏感数据的操作行为；

③ 应提供组织统一的数据处理与分析系统，并能够呈现数据处理前后数据间的映射关系。

4、人员能力

应能够基于合规性要求、相关标准对数据安全分析中所可能引发的数据聚合的安全风险进行有效的评估，并能够针对分析场景提出有效的解决方案。

二、实践指南

1、组织建设

美创科技专家建议组织机构在条件允许的情况下应该设立数据分析部门并招募相关的技术人员与管理人员，负责为公司提供必要的数据分析技术支持，负责为公司制定整体的数据分析安全方案和相关制度，并推动相关要求确实可靠的落地执行。除此之外，还需要为公司定义数据的获取方式、授权机制、数据使用等内容，明确应该使用那些数据分析工具以及相应工具的规范使用方法，还应该建立针对数据分析结果的审核机制，以及针对数据分析过程中的审计机制，确保数据分析的结果可用性和数据分析事件的可追溯性。

2、人员能力

针对数据分析部门的管理人员来说，必须具备良好的数据安全风险意识，熟悉国家网络安全法律法规以及组织机构所属行业的政策和监管要求，在进行数据分析管理以及数据分析安全制度制定的时候，严格按照《网络安全法》、《数据安全法》等国家相关法律法规和行业规范执行，同时还需要相关的管理人员具备一定数据分析安全管理经验，拥有良好的数据分析专业知识基础，熟悉常见的数据分析流程、主流的数据分析工具，能够结合业界标准、合规要求，对在大数据分析中可能引发的数据聚合的安全风险进行有效地评估和预防，并制定相应的数据分析安全解决方案。

针对数据分析部门的技术人员来说，必须具备良好的数据分析安全风险意识，熟悉相关的法律法规以及政策要求，熟悉主流厂商的典型数据分析案例，熟悉主流数据分析工具的使用方法，熟练掌握至少一门编程语言，拥有至少一年以上的数据分析实施经验，熟悉公司内部应有场景，外部业务需求，能够快速有效的执行由数据分析安全部门输出的定制化数据分析方案，并保障数据质量。同时还应该具备一定的日志分析能力，应急响应能力，当在数据分析过程中发生了什么突发事件或意外情况，能够及时根据日志记录对分析结果进行溯源，保障分析结果的完整性和可用性。

3、落地执行性确认

针对数据分析岗位人员能力的实际落地执行性确认，可通过内部审计、外部审计等形式以调研访谈、问卷调查、流程观察、文件调阅、技术检测等多种方式实现。

4、制度流程

① 数据分析安全管理目的

在大数据环境下，企业对多来源多类型数据集进行关联分析和深度挖掘，可以复原匿名化数据，进而能够识别特定个人，获取有价值的个人信息或敏感数据。数据分析安全管理用于规范数据分析的行为，通过在数据分析过程采取适当的安全控制措施，防止数据挖掘、分析过程中有价值信息和个人隐私泄露的安全风险。

② 数据分析安全规范

数据分析在各行各业都有着广泛的应用，一般情况下，美创科技专家建议数据分析可以分为以下步骤：

明确分析需求→收集数据→建立模型→评估模型→数据分析→评估分析结果

l 明确分析需求

明确数据分析的需求是确保数据分析过程有效性的首要条件，可以为收集数据、分析数据提供清晰的目标。数据分析安全管理部门应根据实际情况，充分理解业务规则以及用户需求，提出对信息的需求。

l 收集数据

收集数据的过程包括收集原始数据、清洗数据、构造数据、整合数据、格式化数据。

l 建立模型

根据分析需求和收集到的数据，提出一类或者几类可能的模型，然后对选定模型的可靠程度和精确程度做出推断。建立模型包括选择合适的建模技术、参数调优、生成测试计划、构建模型。

l 评估模型

模型的评估由数据分析安全管理部分负责，在模型评估过程中，需要考虑：

数据分析管理部门需对模型进行较为全面的评价，并提交将模型提交至上级领导部门审核，需上级领导部门审核后方可使用该模型。
对于分析算法的变更要重新进行风险评估，以确保算法的变更不会导致敏感信息和个人隐私的泄露。

l 数据分析

数据分析是将收集的数据，按照模型，通过加工、整理和分析、时期转化为信息。

l 评估分析结果

5、技术工具简述

目前主流的有语法隐私保护技术、语义隐私保护技术。

① 语法隐私保护技术

语法隐私通常是在统计数据库中进行操作，数据通常是以表格的形式发布，表格中包含了不同的属性，如以医疗数据的病人就诊记录为例，表格中的属性主要可分为以下4种类型：

语法隐私保护技术

标识属性：该属性能够准确的识别出某个人的身份，如表中的证。
半标识属性：该属性能够与外部的信息结合来追溯识别出数据集中（全部或者部分）信息所指的个人，或者减少识别某些人身份确认的不确定性，如通过年龄、性别、职业。
敏感属性：该属性是个体表示敏感的，不想被他人所知道的信息，如疾病。
非敏感属性：这类属性是个体认为不敏感的，且如果被他人知道并不会对个体造成伤害，如国籍。

语法隐私保护技术基于这样一种事实；数据的发布可能使得某些个体的隐私造成泄漏。保护这些个体隐私的第一个步骤实在发布数据之前剔除或者使用随机数字来代替表格中的标识属性即脱敏。但这种简单的去除标识的方法并不能为个体提供足够的隐私保证，这是由于通过半标识属性与公开发布的信息的组合仍然能够识别出个体的身份。因此为了保护隐私不被泄漏，语法保护技术通常是直接修改初始数据的半标识属性的值来保护数据的隐私。

而隐私泄漏可以分为

身份泄漏，即个体的身份泄漏；
属性泄漏，即个体的敏感信息泄漏；
表格泄漏，即个体是否在数据集中的信息被泄漏。

在数据发布、处理、应用阶段，数据收集者可以通过语法隐私保护技术来匿名数据，然后共享给第三方。语法隐私技术主要是通过K匿名技术。

② 语义隐私保护技术

语义隐私保护技术是为了保护不论个体是否在公开发布的数据集中的隐私。例如现在有一个数据集提供一项查询功能，即可以查询某个地区的某个行业的人员每年上交的平均税费。假设个体的每年上缴税费是敏感信息，不能被他人知道，在这种情况下，某个攻击者知道了小明所上缴税费比在上海的公务员所上缴的平均税费低800元，尽管攻击者并不知道小明在税费上面的任何信息，通过该数据集提供的查询功能，攻击者可以推断出小明每年所上缴的税费，值得注意的是，小明的隐私信息泄漏并部依赖于小明是否在所公开的数据集中。

语义隐私保护技术通常适用于以下两种环境：