1.1 数据治理是什么
关于数据治理,笔者曾向多家企业不同层级的领导及员工做过调研。大家都是站在自己的角度理解“数据治理是什么”,无法给出一个准确的答案。
1.1.1 从管理者视角看数据治理
某化工集团的CEO在一次工作报告中指出:“数据治理是企业发展战略的组成部分,是指导整个集团进行数字化变革的基石,要将数据治理纳入企业的顶层规划,各分/子公司、各业务部门都需要按照企业的顶层战略要求进行工作部署,以实现企业数字驱动的转型的目标。”
某银行将数据战略正式纳入董事会议程,有关数据治理的重大事项直接由董事会审批或授权。该银行希望通过数据赋能,让数据服务于银行的业务,为客户提供更好的金融服务,基于数据治理策略控制银行数据的确权和使用,保障银行用数安全和符合监管要求。
基于此,我们姑且把数据治理理解为与企业战略相关、指导企业数字化转型的策略。
1.1.2 从业务人员视角看数据治理
关于数据治理,某企业市场部领导曾经向笔者抱怨:“数据治理不是信息部门的事情吗?我们只是做一些配合工作。当然,我也知道数据的重要性,我们想通过数据进行客户分析,增加销量。但现在我连我们企业有哪些数据都不知道,更别说使用了。”
在谈到对于企业数据治理的期待时,这位领导直言:“希望数据治理能够将企业的数据开放出来,让我们知道有哪些数据,这些数据是怎么定义的、有什么作用,让我们在用数据的时候能够方便地获取,并且数据质量是有保障的。”
这位市场部领导的需求不是个例,而是很多企业数据治理的痛点所在。这个痛点需求恰好击中了数据治理的三大要害:
第一,要定义数据,让抽象的数据变成可读、可理解的信息;
第二,要有一个完整的数据地图或数据资源目录,盘活企业的数据资产,方便用户随时找到想要的数据;
第三,要做好数据质量管理,提升数据质量并提升数据的使用率。
1.1.3 从技术人员视角看数据治理
在有多年数据仓库领域工作经验的小李看来,数据治理应包含三部分:一是ETL,即数据的抽取、转换、加载,保障数据仓库内有数据可用;二是对数据的处理、转换和融合,保障数据仓库内的数据准确、可用;三是元数据管理,保障数据仓库内的数据可进行血统溯源和影响分析。
来自系统运维部的小王认为:“企业数据治理的重点是对数据源中数据的治理,也就是需要对业务系统实施治理,而数据仓库只是数据的应用端,只有业务系统的数据质量高了,数据仓库才能获得高质量的数据,进而获得高质量的洞察。”
而数据平台部小赵的观点则是:“数据治理还得看数据湖的,从源头治理虽然好,但是操作起来太复杂,周期长,成本高。而我们在数据湖中治理就不一样了,我们的数据湖已经接入企业90%以上的数据,数据统一在‘湖’中管理。所有的用数需求都需要通过数据湖调取,因此我们只需要将数据湖中的数据治理好,就什么问题都没有了。”
可见,即使都从技术角度出发,不同技术方向的人对数据治理的理解也是不同的。小李、小王和小赵都是从自身专业角度思考数据治理,各有各的道理。在不同的数据治理应用场景中,数据治理的内涵各有侧重。
1.1.4 数据治理的定义
数据治理的定义有很多。国际数据管理协会(DAMA)给出的定义是:“数据治理是对数据资产管理行使权力和控制的活动集合。”
国际数据治理研究所(DGI)给出的定义是:“数据治理是一个通过一系列与信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。”
在笔者看来,所有为提高数据质量而展开的技术、业务和管理活动都属于数据治理范畴。数据治理的最终目标是提升数据利用率和数据价值,通过有效的数据资源管控手段,实现数据的看得见、找得到、管得住、用得好,提升数据质量和数据价值。
企业数据治理非常必要,它是企业实现数字化转型的基础,是企业的一个顶层策略,一个管理体系,也是一个技术体系,涵盖战略、组织、文化、方法、制度、流程、技术和工具等多个层面的内容。