企业如何进行数据治理,会采用不同的方法和路径。就大部分企业而言,以下三步是数据治理方案落地的必经之路。
第一步对企业数据进行归集和标准化。
信息化领域有一个说法就是“垃圾进,垃圾出”,意指用脏乱的数据做样本,产生的研究成果也是毫无价值的。数据的污染可能发生在数据产生、采集、传输、流转、加工、存储、提取、交换等各个环节,因此要保证数据治理目标的实现,就必须对数据进行全流程的管控,要在数据标准、数据质量、数据文件交换、元数据、数据生命周期、主辅数据源、数据安全、数据责任等方面形成统一的数据治理规范。
第二步就是数据模型管理和标签梳理。
数据治理的核心是数据模型管理。目前企业原始数据库中存在大量的字段和表没有注释,意思含糊不清,同名不同义、同义不同名,冗余字段、枚举值不一致的现象普遍存在。这些问题都会直接影响系统对数据的识别。数据建模让数据结构更加丰富和结构清晰化,便于数据口径统一。企业沉淀了大量数据模型之后,要及时做保留或删除管理,不做数据模型管控,那么这些历史问题会给新一代系统改造带来很多困扰。
除此之外,数据标签是对数据实体特征的符号表示,每一个数据标签都是我们认识、观察和描述数据实体的一个角度。因此内部统一标签也至关重要。商品标签包含了条码、规格、口味、图片、包装等信息。顾客标签包括性别、年龄、地区、兴趣爱好、产品偏好、购买力、忠诚度等等。
在实际的数据治理中,数据资源目录、数据分类、数据标签是相互配合、相辅相成的。建立良好的数据资源目录的第一步就是明确数据资源的分类,根据数据分类去组织资源、编目,之后是为数据资源打上数据标签,让数据资源更贴近用户、更容易管理,以便充分发挥出数据的价值。
第三步是企业算法和人工智能应用。
在对企业数据进行归集和标准化,并对数据模型进行管控和标签梳理之后,就可以对数据进行管理,并辅之以相应算法和人工智能,在具体业务场景应用。
以数据模型管理为例:人工智能可以帮助企业实现经验模型与计算机模型的完美融合,构建商品和会员的知识图谱。
以元数据管理为例:人工智能实现对非结构化数据的采集和关键信息的提取,并实现元数据的维护和整理。
再以主数据管理为例:主数据是企业核心业务实体的数据,是在整个价值链上被重复、共享应用与多个业务流程的,并与各个业务部门与各个系统之间共享的基础数据。在复杂数据主数据系统中,机器学习,自然语言处理等人工智能技术可以帮助定义和维护数据匹配规则,以及确定与主数据相关的记录,建立交叉引用等规则。
亿信华辰作为国内领先的数据治理、数据分析软件厂商,在数据治理、数据分析工作开展的各个阶段提供专业技术人员和解决方案支持。服务电话:4000011866转0。
亿信华辰睿治数据治理工具,是一款荣获DAMA数据治理优秀产品奖的大数据治理工具,融合元数据管理、数据标准管理、数据质量管理、主数据管理等模块,可快速满足政府、金融、税务、医疗卫生、应急能源等100+行业数据治理方案。
来源:freebuf.com 2021-06-30 16:05:42 by: didi36923
请登录后发表评论
注册