腾讯大神精讲数据治理
  7uk9nQQzKLJb 2023年11月02日 43 0

1. 概述

数字化时代,数据正在以超凡的速度渗Tou到每个行业的业务领域,成为重要的生产要素。合理利用数据不仅能够提升企业竞争力,甚至还可以再造企业的商业模式。然而,拥有了数据并不等于就拥有了数据价值,只有实施有效的数据治理策略,才能持续输出高质量数据,释放数据价值。

2. 什么是数据治理

2.1 从管理者视角看

数据治理是企业发展战略的组成部分,是指导整个集团进行数字化变革的基石,要将数据治理纳入企业的顶层规划,各分/子公司、各业务部门都需要按照企业的顶层战略要求进行工作部署,以实现企业数字驱动的转型的目标。

某银行将数据战略正式纳入董事会议程,有关数据治理的重大事项直接由董事会审批或授权。该银行希望通过数据赋能,让数据服务于银行的业务,为客户提供更好的金融服务,基于数据治理策略控制银行数据的确权和使用,保障银行用数安全和符合监管要求。

基于此,我们姑且把数据治理理解为与企业战略相关、指导企业数字化转型的策略。

2.2 从业务人员视角看

某企业市场部领导直言:“数据治理不是信息部门的事情吗?我们只是做一些配合工作。当然,我也知道数据的重要性,我们想通过数据进行客户分析,增加销量。但现在我连我们企业有哪些数据都不知道,更别说使用了。希望数据治理能够将企业的数据开放出来,让我们知道有哪些数据,这些数据是怎么定义的、有什么作用,让我们在用数据的时候能够方便地获取,并且数据质量是有保障的。”

这位市场部领导的需求不是个例,而是很多企业数据治理的痛点所在。这个痛点需求恰好击中了数据治理的三大要害:

  • 第一,要定义数据,让抽象的数据变成可读、可理解的信息;
  • 第二,要有一个完整的数据地图或数据资源目录,盘活企业的数据资产, 方便用户随时找到想要的数据;
  • 第三,要做好数据质量管理,提升数据质量并提升数据的使用率。

2.3 从技术人员视角看

有多年数据仓库领域工作经验的小李看来,数据治理应包含三部分:一是ETL,即数据的抽取、转换、加载,保障数据仓库内有数据可用;二是对数据的处理、转换和融合,保障数据仓库内的数据准确、可用;三是元数据管理,保障数据仓库内的数据可进行血统溯源和影响分析。

来自系统运维部的小王认为:“企业数据治理的重点是对数据源中数据的治理,也就是需要对业务系统实施治理,而数据仓库只是数据的应用端,只有业务系统的数据质量高了,数据仓库才能获得高质量的数据,进而获得高质量的洞察。”

而数据平台部小赵的观点则是:“数据治理还得看数据湖的,从源头治理虽然好,但是操作起来太复杂,周期长,成本高。而我们在数据湖中治理就不一样了,我们的数据湖已经接入企业90%以上的数据,数据统一在‘湖’中管理。所有的用数需求都需要通过数据湖调取,因此我们只需要将数据湖中的数据治理好,就什么问题都没有了。”

可见,即使都从技术角度出发,不同技术方向的人对数据治理的理解也是不同的。小李、小王和小赵都是从自身专业角度思考数据治理,各有各的道理。在不同的数据治理应用场景中,数据治理的内涵各有侧重。

3. 数据治理的定义

数据治理的定义有很多。国际数据管理协会(DAMA)给出的定义是:“数据治理是对数据资产管理行使权力和控制的活动集合。”

国际数据治理研究所(DGI)给出的定义是:“数据治理是一个通过一系列与信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。”

不管什么定义 ,数据治理的最终目标是提升数据利用率和数据价值,通过有效的数据资源管控手段,实现数据的看得见、找得到、管得住、用得好,提升数据质量和数据价值。

4. 数据治理治什么

数据治理的对象必须是重要的数据资源,是关乎企业商业利益的数据资源,这样的数据资源方可称为“数据资产”。

北京大学教授王汉生先生说过:“数据治理不是对‘数据’的治理,而是对‘数据资产’的治理,是对数据资产所有利益相关方的协调与规范。”

4.1 什么是数据资产

数据资产是指企业过去的交易或者事项形成的,由企业拥有或者控制的,预期会给企业带来经济利益的数据资源,并且其价值和成本是可计量的。

数据要成为数据资产,至少要满足4个核心条件。

(1)数据资产是企业的交易或者事项形成的

数据资产要是企业日常的生产经营活动中积累的数据,或者由于业务需要而被企业实际控制的数据。例如,互联网公司的各种网站、电商平台、社交平台每天产生的大量数据实际都是被这些互联网公司控制的。另外,企业从第三方交换或者购买来的数据也是符合这个定义的。目前有一些组织专门做数据交易的生意,例如数据堂、贵州数据交易所、华中数据交易所等。

(2)由企业拥有或者控制

这一条涉及数据的确权问题。对于数据的归属权、控制权、使用权的问题,目前我国还没有完善的法律法规。例如互联网平台每天由用户浏览评论等上网行为产生的数据,这些数据的产权方属于谁?这不是一个容易回答的问题,但实际互联网平台提供了数据存储和管理服务,拥有数据的实际控制权。暂且可理解为,数据在谁那里能够发挥出最大的价值,能够最好地服务于人类和社会,数据就应该归谁所有。当然,利用收集的数据做一些侵犯个人隐私或其他违法犯罪的事情是绝对不允许的。

(3)预期会给企业带来经济利益

企业运营中可能会产生大量的数据,数据在被有效整合、利用后会产生巨大的价值。数据要成为资产,首先要具备可利用性,这样才能给企业带来可预期的经济收益,否则就不是资产。另外,如果数据的获取、管理和维护成本大于其实际产生的收益,或者企业无法通过自用或外部商业化对数据进行有效的变现,那么这些数据也不能视为资产。

(4)成本或价值可衡量

数据价值主要从数据资产的分类、使用频次、使用对象、使用效果和共享流通等维度计量。基于数据价值度量的维度,选择各维度下有效的衡量指标,对数据的活跃性、数据质量、数据稀缺性和时效性、数据应用场景的经济性等多方面进行评估,并优化数据服务应用的方式,最大限度地提高数据的应用价值。所以,数据的价值取决于数据的应用场景,同样的数据在不同的应用场景中产生的价值是不一样的,这也是数据资产价值难以计量的重要原因。

5. 数据治理的价值

5.1 降低业务运营成本

有效的数据治理能够降低企业IT和业务运营成本。一致性的数据环境让系统应用集成、数据清理变得更加自动化,减少过程中的人工成本;标准化的数据定义让业务部门之间的沟通保持顺畅,降低由于数据不标准、定义不明确引发的各种沟通成本。

5.2 提升业务处理效率

有效的数据治理可以提高企业的运营效率。高质量的数据环境和高效的数据服务让企业员工可以方便、及时地查询到所需的数据,然后即可展开自己的工作,而无须在部门与部门之间进行协调、汇报等,从而有效提高工作效率。

5.3 改善数据质量

有效的数据治理对企业数据质量的提升是不言而喻的,数据质量的提升本就是数据治理的核心目的之一。高质量的数据有利于提升应用集成的效率和质 量,提高数据分析的可信度,改善的数据质量意味着改善的产品和服务质量。数据质量直接影响品牌声誉。

5.4 控制数据风险

有效的数据治理有利于建立基于知识图谱的数据分析服务,例如360°客户画像、全息数据地图、企业关系图谱等,帮助企业实现供应链、投融资的风险控制。良好的数据可以帮助企业更好地管理公共领域的风险,如食品的来源风险、食品成分、制作方式等。企业拥有可靠的数据就意味着拥有了更好的风险控制和应对能力。

5.5 增强数据安全

有效的数据治理可以更好地保证数据的安全防护、敏感数据保护和数据的合规使用。通过数据梳理识别敏感数据,再通过实施相应的数据安全处理技术,例如数据加密/解密、数据脱敏/脱密、数据安全传输、数据访问控制、数据分级授权等手段,实现数据的安全防护和使用合规。

5.6 赋能管理决策

有效的数据治理有利于提升数据分析和预测的准确性,从而改善决策水平。良好的决策是基于经验和事实的,不可靠的数据就意味着不可靠的决策。通过数据治理对企业数据收集、融合、清洗、处理等过程进行管理和控制,持续输出高质量数据,从而制定出更好的决策和提供一流的客户体验,所有这些都将有助于企业的业务发展和管理创新。

6. 数据治理框架

“数据治理”并不是一个新概念,国内外有很多组织专注于数据治理理论和实践的研究,并形成了卓有成效的研究成果,推动了数据治理理论和技术的发展。

国际上,主流的数据治理框架主要有ISO数据治理标准、GDI数据治理框架、DAMA数据管理框架等。

在数据治理框架和标准体系的研究方面,国内起步相对较晚,目前主要有 GB/T 34960DCMM两个标准。

由于在求职数据治理工程师中,具备DAMA数据管理知识体系的优先条件,所以这里主要介绍下DAMA数据管理框架。

腾讯大神精讲数据治理_数据管理

腾讯大神精讲数据治理_数据_02

6.1 DAMA数据管理框架

DAMA(国际数据管理协会)是一个由全球性数据管理和业务专业的志愿人士组成的非营利协会,致力于数据管理的研究和实践。其出版的《DAMA数据管理知识体系指南》(简称DAMA-DMBOK)一书被业界奉为“数据管理的圣经”,目前已出版第2版,即DAMA-DMBOK2。

DAMA-DMBOK2用一个“车轮图”定义了数据管理的11个知识领域,即数据治理、数据架构、数据建模和设计、数据存储和操作、元数据管理、数据质量管理、主数据和参考数据管理、数据安全管理、数据集成和互操作、文件和内容管理、数据仓库和商业智能。

6.1.1 数据治理

数据治理位于“车轮图”中央。在数据管理的11个知识领域中,数据治理是数据资产管理的权威性和控制性活动(规划、监视和强制执行),是对数据管理的高层计划与控制,其他10个知识领域是在数据治理这个高层战略框架下执行的数据管理流程。

6.1.2 数据架构

数据架构定义了与组织业务战略相协调的数据资产蓝图,以建立战略性的数据需求,并满足需求的总体设计,包括数据技术架构、数据集成架构、数据仓库和商业智能架构及元数据架构。数据架构要求在不同抽象层级、不同角度上描述组织的数据,以便更好地了解数据,帮助管理者做出决策。

6.1.3 数据建模和设计

数据建模和设计是最早出现的数据管理知识领域之一。数据模型一般分为概念模型、逻辑模型和物料模型。建模的方法有维度建模法、面向对象的建模法、基于事实的建模法、基于时间的建模法及非关系型数据建模方法等。

6.1.4 数据存储和操作

数据存储和操作以业务连续性为目标,包括存储数据的设计、实现和支持活动,以及在整个数据的全生命周期中从计划到销毁的各种活动。为IT运营提供可靠的数据存储基础设施可以最大限度地降低业务中断的风险。

6.1.5 元数据管理

元数据是描述数据的数据,可分为业务元数据、技术元数据和操作元数据。元数据是定位和查找数据的基础。元数据管理包括规划、实施和控制活动,以便访问高质量的集成元数据,包括定义、模型、数据流以及其他至关重要的信息。

6.1.6 数据质量管理

数据质量管理包括规划和实施质量管理技术,以测量、评估和提高数据在组织内的适用性。大家都认识到数据有价值,但实现数据价值的前提是数据本身是可靠和可信的,换句话说,质量好的数据才有价值。

6.1.7 主数据和参考数据管理

主数据是企业关键业务实体的核心共享数据,例如组织、人员、客户、供应商、物料等。参考数据是用于描述或分类其他数据,或者将数据与企业外部信息联系起来的任何数据,例如货币代码、地区代码、证件类型等。主数据和参考数据管理是对企业核心共享数据的持续协调和维护,使关键业务实体的真实信息以准确、及时、相关联的方式在各系统之间得到持续使用。它为企业交易活动和数据分析提供了上下文,是企业业务协同和决策分析的基础。

6.1.8 数据安全管理

数据安全管理的目的是确保数据隐私和机密性得到保护,数据不被破坏,并得到适当的访问,确保企业数据安全。降低风险和促进业务增长是数据安全管理活动的主要驱动因素。良好的数据安全管理能力不仅能节约成本,而且是核心竞争力。

6.1.9 数据集成和互操作

数据集成和互操作的主要目的是对数据移动进行有效的管理,包括数据存储、应用程序以及与不同组织之间的数据移动和整合相关的过程。数据集成的传输方法经历了从最初的文件批处理到实时流式数据传输等多种技术的演变过程。无论是数据治理还是数据应用,都需要关注如何将数据有效地集成并融合到一起,以提升数据资产的价值。

6.1.10 文件和内容管理

文件和内容管理用于管理非结构化数据和信息的全生命周期,包括计划、实施和控制活动,尤其是支持法律法规遵从性要求所需的文档,例如各种纸质或电子档案、图片、音视频等多媒体文件等。

6.1.11 数据仓库和商业智能

数据仓库和商业智能包括计划、实施和控制等流程,用来管理决策支持数据,并使业务和管理人员通过分析报告从数据中获得价值。该技术赋能企业将不同来源的数据整合到公共数据模型中,整合后的数据模型为业务运营提供洞察,为企业决策支持和创造组织价值带来新的可能性,提高组织决策的成功率。DAMA-DMBOK2认为,数据仓库和商业智能是数据价值的提供者,而要提供数据价值离不开数据治理的支撑。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
  gBkHYLY8jvYd   2023年12月09日   29   0   0 cii++数据
7uk9nQQzKLJb