数据安全怎么做：数据分类分级 – 作者:Mark2019-安全小百科

前言

近期国家出台了《中华人民共和国数据安全法》草案篇，其中，从国家法律层面强调对数据要进行分级分类保护，那到底如何进行数据的分级分类保护呢？

目前国家层面的文章除了在今年2月27日发布的《工业数据分类分级指南（试行）》，并无其他国家层面的指导文件，但是分级分类这个词对于所有做安全的同仁们并不陌生，国际上的ISO27001和NIST等规范皆有提及，国内的地方和行业上也有相应的指南发出，如贵州省的《政府数据数据分类分级指南》、金融行业的《金融数据安全数据安全分级指南（送审稿）》和《证券期货业数据分类分级指引》等。那落地到企业层面如何制定呢，今天跟大家分享下“数据分类分级”在企业中的实践。

下述内容，仅代表个人观点，仅供参考。

什么是数据分类分级

将它拆分成三部分进行理解。

数据：指任何以电子或者非电子形式对信息的记录。

数据分类：根据组织数据的属性或特征，将其按照一定的原则和方法进行区分和归类，并建立起一定的分类体系和排列顺序，以便更好地管理和使用组织数据的过程。

数据分级：按照一定的分级原则对分类后的组织数据进行定级，从而为组织数据的开放和共享安全策略制定提供支撑的过程。

数据分类分级的价值和意义

通过对数据的分类分级，识别数据对组织的具体价值，确定以何种适当的策略，保护数据的完整性、保密性和可用性。

例如，一般公司把数据分为绝密、机密、秘密和公开四种类型，很明显，超过公开级别的数据都是敏感数据，它们具有不同的价值，组织需要采取不同的额外投入和特定策略等来管理数据，规避因敏感信息的未经授权访问给组织造成重大损失的可能。

比如：绝密级数据必须使用AES256加密，访问和使用需数据安全治理小组审批方可使用；机密级数据必须使用AES256加密，访问和使用需要CTO审批；秘密级别数据必须使用AES256加密，访问和使用需部门负责人审批；公开数据使用可使用明文存储，访问和使用需直属领导审批即可。

落地实践

对于事件推动支撑层面，个人推崇“三分技术、七分管理、细节把控、管理先行”，而标准化的制度和流程是落实管理思维的关键工具和手段之一。

1、制定数据分类分级管理制度

将数据分类分级工作落实到组织管理制度中，形成标准化，明确以下内容：

1）制度目的、范围

2）数据分类分级工作中涉及到的组织及职责

3）数据分类分级工作的原则

4）组织数据的具体分类概述

将组织数据划分为三类：

用户数据类

业务数据类

公司数据类

5）组织数据的具体分级概述

将组织数据分为五个级别：

绝密（G1）这是极度敏感的信息，如果受到破坏或泄漏，可能会使组织面临严重财务或法律风险，例如财务信息、系统或个人认证信息等。

机密（G2）：这是高度敏感的信息，如果受到破坏或泄漏，可能会使组织面临财务或法律风险，例如xinyongka信息， PII或个人健康信息（PHI）或商业秘密等。

秘密（G3）：受到破坏或泄漏的数据可能会对运营产生负面影响，例如与合作伙伴和供应商的合同，员工审查等。

内部公开（G4）：非公共披露的信息，例如销售手册，组织结构图，员工信息等。

外部公开（5）：可以自由公开披露的数据，例如市场营销材料，联系信息，价目表等。

6）各个级别组织数据的使用及防护原则

7）各个级别组织数据的权限开通、提取等管理流程

不同级别的数据制定不同的数据访问权限或提取等管理审批流程

2、制定数据资产分类分级清单

抛砖引玉，分享一个分类分级思路：整体数据分类分为三大类数据，分别为用户数据类、业务数据类和公司数据类，三个一级数据分类又可以进一步细分到二级和三级数据，基于最细化的层级，给其定义相应的数据价值级别，进而汇总形成组织整体的数据分类分级清单，用以指导组织整体的数据治理和数据分类分级的实际工作。

1）数据分类

a）用户数据分类

用户数据即公民个人信息类，这类数据在全球已经有了比较清晰的规范要求和说明，这点可以参考相关标准进行制定分类。

国内数据可参考两个：

《网络安全法》中，公民个人信息，是指以电子或者其他方式记录的公民的姓名、出生日期、shenfenzheng号码、个人生物识别信息、职业、住址、电话号码等个人身份信息，以及其他能够单独或者与其他信息结合能够识别公民个人身份的各种信息。

《信息安全技术个人信息安全规范》GB/T 35273—2020中如下清单：

国外数据可参考两个：

NIST 800-122中对个人信息的定义：

个人识别信息是“由代理机构维护的有关个人的任何信息，包括（1）任何可用于区分或追踪个人身份的信息，例如姓名，社会保险号，出生日期和地点，母亲的姓氏或生物特征记录；（2）与个人链接或可链接的任何其他信息，例如医学，教育，财务和就业信息。 PII的示例包括但不限于：

名称，例如全名，娘家姓，母亲的娘家姓或别名；

个人识别号，例如社会安全号（SSN），huzhao号，jiazhao号，纳税人识别号或金融帐户或xinyongka号；

地址信息，例如街道地址或电子邮件地址；

个人特征，包括照片图像（尤其是面部或其他识别特征），指纹，笔迹或其他生物特征数据（例如，视网膜扫描，语音签名，面部几何形状）；

与上述内容之一相关或可链接的个人信息（例如，出生日期，出生地点，种族，宗教，体重，活动，地理指标，就业信息，医疗信息，教育信息，财务信息）。

GDPR中对个人数据的定义：

“个人数据”是指与已识别或可识别的自然人（以下简称“数据主体”）有关的所有信息；可以将自然人视为可识别的人，可以直接或间接地对其进行识别，特别是通过分配给诸如姓名，识别号，位置数据，在线标识符或一个或多个表示身体的特殊特征的标识符，该自然人的生理，遗传，心理，经济，文化或社会身份；

b）业务数据分类

业务相关的数据，与组织的业务形态息息相关，比如：淘宝京东更多的是订单物流、商品详情数据等；爱奇艺优酷更多的是视频类数据等；除此之外，还有包含一些通用类数据，比如市场数据、业务分析数据等。可以找业务PO沟通了解，业务特性决定，不细写。

c）公司数据分类

公司数据主要包含人事数据、财务数据、法务数据、采购数据、日志数据、代码数据、制度数据等二级数据分类，二级数据可以分为两类，一类为通用数据类，如日志、制度等；一类为定制数据类，如人事、财务等。

每个二级类别数据细分不细写，举一个定制数据类制定例子，比如人事数据。

可以找人事系统的产品经理或研发获取系统的数据信息表，通过查看数据信息表可以清楚的看到人事系统会使用哪些数据，三级分类如公司、员工信息、部门、职位等。

样例如下，仅供参考：

数据分类			数据分级
一级分类	二级分类	三级分类	G1	G2	G3	G4	G5
公司数据	人事数据	员工认证数据：账号密码、身份验证token	√
		员工个人隐私数据：shenfen证、手机号、yinhang卡号		√
		员工个人非隐私数据：入职日期、职级				√
		员工家庭数据：与员工关系、性别			√
		员工教育信息：学校名称、学位、毕业类型			√

2）数据分级

数据也是对数据定性分析的过程，在为各类数据分配级别时，我们需要考虑以下问题：

数据泄漏或破坏相关的合规风险是什么？

数据泄漏或破坏相关的组织经济风险是什么？

数据泄漏或破坏相关的软件成本和硬件成本是什么？

数据泄漏或破坏相关的组织品牌及舆论影响成本是什么？

示例：

将身份验证、组织财务报表等定义为G1级别

将个人敏感信息等定义为G2级别

将组织结构、个人一般信息等定义为G3级别

将组织邮箱等定义为G4级别

将组织对外公kai信息等定义为G5级别

3、制定数据使用规范

a）数据提取

关键点

区分范围：对内or对外使用
区分量级：提取数据量的多少
区分级别：数据的敏感级别

基于上述三个方面细化制定数据提取流程。

b）权限开通

基于库、表、字段的敏感级别，制定不同的权限审批流程，且基于最小化权限开通方式，理想状态基于字段开通，正常情况基于表进行开通，特殊情况基于库进行开通。举例如下，仅供参考：

G1级别数据：需要部门负责人、数据归属团队、数据安全团队、内审、法务、数据安全治理小组审批方可开通
G2级别数据：需要部门负责人、数据归属团队、数据安全团队、内审、法务审批方可开通
G3级别数据：需要部门负责人、数据归属团队、数据安全团队审批，抄送内控和法务方可开通
G4级别数据：需要部门负责人和数据归属团队审批方可开通
G5级别数据：需要部门负责人审批方可开通

4、数据分类分级落地推广

1）制度发布

数据分类分级是数据治理工作的核心之一，制度需要至少经过公司技术委员会、数据治理小组、法务、内控、CTO等过会认可，然后通过内部平台、邮件、安全意识推广等多维度方式广而告之。

目的：从制度发起阶段就形成上到下的执行模式，从公司战略层引领执行层工作。

2）制度落地

数据治理相关策略落地，需要找准数据落点和出点。

举例：

公司生产核心数据在生产网的mysql库中，通过数据同步等方式给到大数据中心负责的hive，mysql作为组织的系统交互数据落点，hive作为数据访问、提取、分析等的起点。

基于现状，选择在hive层面落地数据分类分级工作，通过半自动化方式进行打标签。

实现逻辑：

基于hive建立一个数据层面的数据地图和权限申请审批系统，底层为mysql库。数据地图是数据层面的全景系统，可以查询数据库、表、字段的相关信息，并通过半自动化的方式对数据进行打标签工作，通用类字段以自动化方式打标签入库，非通用类字段以手动方式打标签入库。系统成熟后可实现自动化分类分级打标签工作。数据使用方可以基于数据地图上的库、表、字段和敏感级别信息进行数据访问权限申请，不同的级别数据权限走不同的数据申请流程。

除此之外，基于hive维护出来的敏感信息级别清单，可以反向推动生产mysql数据的治理工作，如敏感信息进行存储加密或脱敏、使用的脱敏等工作。