数据治理十步法

Chase620 等级 785 0 0

以下文章来源于谈数据 ,作者石秀峰

1、找症状,明确目标

任何企业实施数据治理都不是为了治理数据而治理数据,其背后都是管理和业务目标的驱动。企业中普遍存在的数据质量问题有:数据不一致、数据重复、数据不准确、数据不完整、数据关系混乱、数据不及时等。

数据治理十步法

由于这些数据问题的存在对业务的开展和业务部门之间的沟通造成了较大的困扰,产生了很大的成本;各异构的系统中数据不一致,导致业务系统之间的应用集成无法开展;数据质量差无法支撑数据分析,分析结果与实际偏差较大。然而要实现数据驱动管理、数据驱动业务的目标,没有高质量的数据支撑是行不通的。

目标:企业实施数据治理的第一步,就是要明确数据治理的目标,理清数据治理的关键点。

技术工具:实地调研、高层访谈、组织架构图。

输入:企业数据战略规划,亟待解决的业务问题,经营发展需求,业务需求等;

输出:数据治理的初步沟通方案,项目任务书,工作计划表;

2、理数据,现状分析

针对企业数据治理所处的内外部环境,从组织、人员、流程、数据四个方面入手,进行数据治理现状的分析。

数据治理十步法

某企业数据治理痛点分析

组织方面:是否有专业的数据治理组织,是否明确岗位职责和分工。

人员方面:数据人才的资源配置情况,包括数据标准化人员、数据建模人员,数据分析人员,数据开发人员等,以及数据人才的占比情况。

流程方面:数据管理的现状,是否有归口管理部门,是否有数据管理的流程、流程各环节的数据控制情况等;

数据方面:梳理数据质量问题列表,例如:数据不一致问题,数据不完整,数据不准确、数据不真实、数据不及时、数据关系混乱,以及数据的隐私与安全问题等。

目标:分析企业数据管理和数据质量的现状,确定初步数据治理成熟度评估方案。

技术工具:实地访谈、调研表、数据质量问题评议表、关键数据识别方法论(例如:主数据特征识别法);

输入:需求及现状调研表、访谈记录、数据样本、数据架构、数据管理制度和流程文件;

输出:数据问题列表、数据U/C矩阵、数据治理现状分析报告、数据治理评估方案;

3、数据治理成熟度评估

数据治理成熟度反映了组织进行数据治理所具备的条件和水平,包括元数据管理、数据质量管理、业务流程整合、主数据管理和信息生命周期管理。

数据治理十步法

CMMI DMM数据管理能力成熟度评估模型

数据治理成熟度评估是利用标准的成熟度评估工具结合行业最佳实践,针对企业的数据治理现状进行的客观评价和打分,找到企业数据治理的短板,以便制定切实可行的行动方案。数据治理成熟度结束后形成初步的行动方案,一般包括数据治理战略,数据治理指标,数据治理规则,数据治理权责。数据治理愿景和使命是数据治理的整体目标;数据治理指标定义了数据治理目标的衡量方法;数据治理规则和定义包括与数据相关的政策、标准、合规要求、业务规则和数据定义等;权利和职责规定了由谁来负责制订数据相关的决策、何时实施、如何实施,以及组织和个人在数据治理策略中该做什么。

目标:结合业界标准的数据治理成熟度模型,根据企业管理和业务需求进行数据治理成熟的评估,形成初步的数据治理策略和行动路线。

技术工具:数据治理评估模型,例如:DCMM,CMMI DMM,IBM数据治理成熟度评估模型等;

输入:第2步的输入以及数据治理评估模型、数据治理评估工具(评估指标、打分表等);

输出:数据治理评估结果,数据治理策略,初步的行动方案;

4、数据质量问题根因分析

数据治理的目的是解决数据质量问题提升数据质量,从而为数据驱动的数字化企业提供源动力,而提到数据质量问题,做过BI、数仓的同学一定知道,这是一个技术和业务“经常打架”相互推诿的问题。

数据治理十步法

某企业数据问题根因分析鱼骨图

产生数据质量问题的原因有很多,有业务方面的、有管理方面的、也有技术方面的,按照80/20法则,80%的问题是由20%的原因造成起的。所以,如果能够解决这20%的问题,就能得到80%的改进。

目标:分析并找到数据质量问题产生的根本原因,制定行之有效的解决方案;

技术工具:头脑风暴、5W1H、SWOT、因果(鱼刺)图、帕拉图等;

输入:数据问题列表、数据U/C矩阵、数据治理现状分析报告、数据治理评估结果;

输出:数据质量评估结果、对业务的潜在影响和根本原因。

5、业务影响及实施优先级评估

通过数据治理成熟度评估,从组织、流程、制度、人员、技术等方面找到企业在数据治理的待提升的领域和环节,再通过数据质量根因分析找到数据质量问题发生的根本原因,进一步明确了数据治理的目标和内容。再接下来,就需要确定数据治理策略,定义数据治理的实施优先级。

数据治理十步法

某企业主数据治理实施优先级评估

不同的数据治理领域解决的是不同的问题,而数据治理的每个领域都有它的实施难点,对企业来说,需要从业务的影响程度,问题的紧急程度、实施的难易程度等多个维度进行分析和权衡,从而找到符合企业需求并满足企业发展的方案。

目标:确定数据治理核心领域和支撑体系的建设/实施优先级;

技术工具:四象限法则(分别从业务影响程度/实施难以程度,问题重要程度/问题紧急程度绘制优先级矩阵)、KANO模型

输入:数据治理成熟度能力评估结果、数据质量问题根因分析结果;

输出:数据治理实施优先级策略

6、制定数据治理行动路线和计划

路线图是使用特定技术方案帮助达到短期或者长期目标的计划,用于新产品、项目或技术领域的开发,是指应用简洁的图形、表格、文字等形式描述技术变化的步骤或技术相关环节之间的逻辑关系。路线图是一种目标计划,就是把未来计划要做的事列出来,直至达到某一个目标,就好像沿着地图路线一步一步找到终点一样,故称路线图。

数据治理十步法

某企业数据治理实施路线图

企业数据治理的实施路线图的制定是以企业数据战略——愿景和使命为纲领,以急用优先为原则,以分步实施为策略进行了整体设计和规划。实施路线图主要包含的内容:分几个阶段实施,每个阶段的目标、工作内容、时间节点要求、环境条件等。笔者观点:任何一个企业的数据治理都不是一蹴而就,一步到位的,需要循序渐进、持续优化!实施路线图就是基于此产生的,因此说数据治理实施路线图也是说服利益相关者支持的一个重要手段。

目标:确定数据治理的阶段以及每个阶段的目标;

技术工具:路线图法

输入:数据治理成熟度能力评估结果、业务影响及实施优先级评估结果;

输出:数据治理实施路线图或称阶段目标计划

7、制定数据治理详细实施方案

数据治理详细实施方案是用于指导主数据的各项实施工作,一般包括:数据治理核心领域、数据治理支撑体系、数据治理项目管理三个方面。

数据治理十步法

数据治理总体框架图

数据治理核心领域包括:数据架构、数据服务、元数据管理、数据质量管理、数据标准管理、主数据管理、数据安全管理、数据生命周期管理。

数据治理支撑体系包括:组织(组织架构、组织层次、岗位职责)、制度(管控模式、规章制度、考核机制)、流程(归口部门、管理流程、流程任务等)、技术(数据集成、数据清洗、数据开发、数据应用、数据运营、支撑平台、实施方案等)。

数据治理项目管理方案包括:项目组队、项目计划、质量保证计划、配置管理计划、培训和售后等。

关于数据治理的核心领域,详见笔者之前分享的数据治理框架解读系列文章。

关于数据治理的支撑体系,详见笔者之前分享的数据治理成功关键要素系列文章。

目标:基于数据质量根因分析、业务影响和实施优先级评估结果,制定详细实施方案;

输入:业务影响及实施优先级评估结果,行动路线和计划;

输出:数据治理详细实施方案。

8、数据治理实施过程控制

数据治理实施过程控制是对数据治理项目的范围控制、进度控制、质量控制和成本控制,通过对企业的各项资源的合理协调与利用,而达成的数据治理目标的各种措施。从项目管理的角度来讲也是项目管理的黄金三角:范围、时间、质量、成本。

数据治理十步法

任何项目的质量和进度是需要良好的项目管理来保证的,数据治理也一样。与传统的软件工程项目不同,数据治理项目有着范围边界模糊、影响范围广、短期难见效、实施周期长等特点:

①范围边界模糊,数据治理涉及到的关键领域如元数据管理、数据质量管理、数据标准管理、主数据管理等很多是存在交叉的,边界很难界定,例如:实施数据质量管理项目,会涉及元数据管理、数据标准管理等,同样一个元数据管理项目也会涉及数据标准和数据质量。

②影响范围广,数据治理的实施不是一个部门能够完成的,是需要从高级管理层、到各业务部门、信息部门通力协作,共同完成的;

③短期难见效,数据治理项目实施完成后,其数据治理的效果被每个业务点滴操作所“稀释”,并不像其他项目,例如BI,那样明显的体现出来,所以主导数据治理的部门会经常遭到质疑。

④实施周期长,在没有清晰的数据治理目标和范围约定的情况下,数据治理是一个“无底洞”。所以,在实施数据治理项目之前制定好实施路线图和详细的实施方案就显得格外重要(第6、7步)。

目标:通过对数据治理项目实施过程的进度控制、质量控制和成本控制以实现数据治理的目标;

技术工具:PP(项目计划)、PMC(项目控制)、IPM(集成项目管理)、RSKM(风险管理)——CMMI过程域;

输入:6-7步的输出:数据治理实施路线图,数据治理详细实施方案;

输出:各项项目控制措施,例如:项目计划、SOW、项目风险列表、项目报告、项目总结等;

9、监控评估数据治理实施效果

随着大数据技术的不断发展,应当从企业的全局数据治理环境的角度,明确数据治理关键技术运用及其标准规范,构建成效评估指标体系,进行治理效果评价;并运用数据治理能力成熟度模型再次评估,界定数据管理层次,从而使得跨系统、跨业务、跨部门的数据治理体系的建设与实施能够通过各方协作顺利进行,实现卓越数据治理,进而通过数据驱动业务、数据驱动管理和运营以实现企业的降本、增效、提质、创新。

数据治理十步法

某企业数据治理看板(数据已脱敏)

数据治理成效评估指标体系应根据企业及数据治理项目的实际情况制定,一般包括:时间性、数量性、完整性、准确性四个维度。

①时间性即数据的及时性。该维度主要通过源业务系统数据接入的上报及时性、接入及时性等方面进行核对。通过分析月指标、周指标、日指标的数据及时率,得出在规定时间和频度周期内接入系统的比例,以此反映数据接入及时性。

②数量性。该维度是从数据存量,数据增量,数据访问量,数据交换量、数据使用量等指标反映数据的使用情况,可以分为月度指标、周指标、日指标、时分指标等。

③准确性。这个维度主要由各类数据中逻辑的准确性、数据值的准确性、数据频段和字段之间的准确性以及数据的精度等内容组成。该准确率同样包括:月度、每周、每日等准确率指标。

④完整性。此维度主要以单元维度完整性、数据业务维度组合完整性、索引值完整性等不同方面进行核对,是验证数据质量完整性的主要组成部分,包括月度指标、周指标、日指标数据的完整性等内容。

目标:检验各项数据治理指标的落实情况,查漏补缺,夯实数据治理效果;

技术工具:数据治理效果的评价指标体系、各种数据图表工具;

输入:数据治理效果评估指标;

输出:数据治理评估的月报、周报、日报等;

10、数据治理持续改进

数据治理模式应业务化、常态化,不应是一个项目、“一阵风”的模式。

数据治理十步法

图片源自互联网

数据治理工作应向企业生产、销售业务一样作为一项重点的业务工作来开展,构建专业的数据治理组织,设置合适的岗位权责,建立相应的管理流程和制度,让数据标准贯彻到每个业务环节,形成一种常态的工作。在笔者看来,在数据源头加强企业数据的治理,让常态化治理成为日常业务,才能从根本上彻底解决企业数据质量的各种问题,让数据真正转化为企业资产,以实现数据驱动流程优化、数据驱动业务创新、数据驱动管理决策的目标。

目标:数据治理常态化,持续提升数据质量,驱动流程优化和管理创新。

输入:持续的、规范的、标准的各项业务操作;数据治理监控的各项指标和报告;

输出:持续输出的高质量的数据;

博主观点:原理大家都懂,实践时困难重重。在专家的指导下,应用适当的工具可让理论转化为现实。华矩科技,专业的数据治理服务与技术提供商。

本文转自 https://www.jianshu.com/p/46dd7bf61f6f,如有侵权,请联系删除。

收藏
评论区

相关推荐

Google Dart抗衡JavaScript的十大亮点
【IT168 技术】导读:Google是家充满创新力的公司。他们不喜欢Javascript了,于是自己推出了Dart。不负众望,Dart在今年的编程语言排行榜中成了一匹黑马,一经发布便窜到了排行榜107位,次月居然到了63,速度惊人。 根据原文编译的
python刷题-进制转换
十六进制转八进制问题描述  给定n个十六进制正整数,输出它们对应的八进制数。输入格式  输入的第一行为一个正整数n (1<n<10)。  接下来n行,每行一个由0~9、大写字母A~F组成的字符串,表示要转换的十六进制正整数,每个十六进制数长度不超过100000。输出格式  输出n行,每行为输入对应的八进制正整数。  【注意】  输入的十六进制数不会有
分享十张表的数据!大家一起玩!
↑ 关注 + 置顶  有趣的不像个技术号 大家好,我是朱小五 经常看我文章的朋友都知道,我一般在文中会分享自己的爬虫脚本或思路。 最近有一些朋友留言表示对python不太熟悉,也不太会使用爬虫,但是对文中的数据很感兴趣。问小五能不能分享一下这些数据。 当然可以, 不过小五要先把涉及的用户信息去掉,再限制一下数据量,仅供大家学习交流,这样就没有法律风
APPx小程序生成工具助力商家备战双十一“第二战场”
双十一进入倒计时啦! 每年的双十一购物节都会成为剁手党的狂欢盛宴,同时也是一场流量大战,大大小小商家之间、淘宝、京东、苏宁……等各大电商平台之间的营销博弈,精彩纷呈。 然而今年的双十一有了不一样的元素——小程序,作为一种无需下载安装即可使用的手机应用,小程序今年无比火爆,这一次,蘑菇街、拼多多等平台和商家纷纷布局小程序,双十一“第二战场”就此拉开,这也意
Java 9 逆天的十大新特性
![](https://oscimg.oschina.net/oscnet/a610ba4f4f515a9153b80753c65ddf47c2c.jpg) 在介绍 Java 9 之前,我们先来看看 Java 成立到现在的所有版本。 * 1990 年初,最初被命名为 Oak; * 1995 年 5 月 23 日,Java 语言诞生;
Java开发笔记(三十)大小数BigDecimal
前面介绍的BigInteger只能表达任意整数,但不能表达小数,要想表达任意小数,还需专门的大小数类型BigDecimal。如果说设计BigInteger的目的是替代int和long类型,那么设计BigDecimal的目的便是替代浮点型float和双精度型double了。正如它的兄弟BigInteger一般,BigDecimal不存在什么数值范围限制,无论是
java8 十大新特性
原文地址:https://www.cnblogs.com/xingzc/p/6002873.html     **转载请注明出处,谢谢!** **前言:** [Java](https://www.oschina.net/action/GoToLink?url=http%3A%2F%2Flib.csdn.net%2Fbase%2Fjava) 8 已经发布很久
2018十大国产佳片
2018十大国产佳片 ========== 一、总结 ---- ### 一句话总结:好的国产片里面的英文字幕是学英语的好材料。 每个人都想当主角,每个人也都知道主角的巨大优势,主角能够拥有想要的荣光爱情以及各种资源,但是,各种因素造成,只有极少数人才能做主角。 ##### 英语 主角 ### 1、《红海行动》林超贤 2月16日? ##### 主旋
2017 年十大网页设计趋势
![](http://upload-images.jianshu.io/upload_images/675733-12865fa515a4da6a.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 2017 年十大网页设计趋势 又迎来了崭新的一年,让我们来了解网页设计的发展趋势吧。 随着技术
MySQL 查询大于“时间字段”15分钟、1小时、1天的数据
以下代码中times为时间字段,类型为datetime 1.查询大于times十五分钟的数据 //大于号后面都是获取times十五分钟后的时间 select\*from table where now() >SUBDATE(times,interval -15 minute); select\*from table where now() > S
Hive优化的十大方法
Hive用的好,才能从数据中挖掘出更多的信息来。用过hive的朋友,我想或多或少都有类似的经历:一天下来,没跑几次hive,就到下班时间了。Hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、spark-sql等替代品。这里重点讲解hive的优化方式,例如 优化分组:set hive.auto.convert.join
JenkinsPipeline插件的十大最佳实践
Jenkins是卓越的自动化工具之一。Jenkins可通过使用插件进行设计扩展。插件使Jenkins拥有极大的灵活性,可以在各种平台上自动执行各种流程。Jenkins Pipeline建立在这种灵活性和丰富的插件生态系统的基础上,同时使Jenkins用户能够将其Jenkins自动化代码编写。 > 本文翻译自devops.com ![](https://o
大数据建模、分析、挖掘技术应用
时间2022年8月5日 — 2022年8月9日 北京(同时转线上直播)(5日报到,6日9日上课)课程第一天一、大数据概述二、大数据处理架构Hadoop三、分布式文件系统HDFS四、分布式数据库HBase第二天五、MapReduce六、Spark七、IPython Notebook运行Python Spark程序八、Python Spark集成开发环境第三
大数据
课程安排 一、大数据概述 二、大数据处理架构Hadoop 三、分布式文件系统HDFS 四、分布式数据库HBase 五、MapReduce 六、Spark 七、IPython Notebook运行Python Spark程序 八、Python Spark集成开发环境 九、Python Spark决策树二分类与多分类 十、Python Spark支持向量机 十一