数据治理之数据质量评估维度及方法

天翼云开发者社区
• 阅读 3

本文分享自天翼云开发者社区《数据治理之数据质量评估维度及方法》,作者:i****n

从某种程度上来说“数据=金钱”,数据质量的好坏直接决定着数据价值高低,直接或简介影响一个企业的决策方向。数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监测、问题分析和整改、评估与考核等一系列管理活动,提高数据质量以满足业务要求。

一、数据质量关注点

一致性:值数内容在系统内,系统间是否保持一致。如指标是否同名同义,存储,精确度,加工逻辑等是否一致。 完整性:指数据的完整,完备性与及时性,是否存在数据遗漏,缺失及补充等。每日提供的数据应该是完整的,无论在量上还是在特定的数据上,高质量的数据是通过完整的数据统计出来的。 可靠性:指数据的稳定性和准确性等,数据提供过程中,数据产生依赖于系统间的性能,生产数据和加工数据的过程,都会影响数据的可靠性。 准确性:数据域源头的精确性,以及数据处理过程中是否存在算法和数据冲突等。数据的准确性可能存在于个别记录,也可能存在于整个数据集,只有准确更高的数据才能提供高效、高优的决策。 可理解性:数据的可读性和可分析性,是否满足业务需求,以及数据间是否存在相互关系,用户拿到数据是可理解,可用,可决策的。 有效性:指数据是否有效可用,以及数据数据的访问域安全性等。数据安全是数据质量的一项重点管理方面,数据安全对于数据人来说是一条不可触摸的红线。

二、数据质量评估维度

数据完整性:考量数据项信息是否全面、完整、无缺失。考核指标表完整性和字段完整性。 监控覆盖率:确保数据遵循统一的数据标准或规范要求,考核指标:监控覆盖率,监控覆盖率=监控的高价值任务个数/高价值任务总个数。其中统计的范围只涉及有价值的任务。 任务准确性:考量数据是否符合预设的质量要求,如唯一性约束、记录量校验等,考核指标:任务监控告警率,监控任务告警率=告警任务个数(本周)/监控任务总个数。注:这里的告警任务,都是数据质量监控任务。 告警响应度:通过日常管理、应急响应,降低或消除问题影响,避免数据损毁、丢失。指标公式:统一的时间中期内,已处理告警个数/告警总个数。 任务性能:考量任务的执行效率和健康度,诊断任务是否倾斜等性能问题。指标公式:问题任务个数(统计周期内)/任务总个数。 任务稳定性:考量任务的运行稳定性,是否经常报错,导致数据事故。指标公式:失败任务个数(统计周期内)/总任务总个数。 任务时效性:考量数据项信息可被获取和使用的时间是否满足预期要求,考核指标。任务延迟率,任务延迟率=延迟的高价值任务个数(统计周期内)/高价值任务总个数,其中,基准时间为任务近30天平均完成时间加30分钟,任务晚于基准即延迟。

三、数据质量校验方法

完整性 1:可以从数据量上进行校验。一般情况下,成熟的业务场景,每日生成的数据基本恒定,如果莫一天数据地域日常数据的波动阈值,可以预测数据基本是不完整的。 2 完整性的另一部分是字段的数据缺失,可以通过统计字段的空值率进行校验。比如默写字段在表中理论上是必然存在的,数据中如果出现了空值,则说明该字段的数据缺失。 准确性 1,常见的数量级的记录错误,这种错误很容易发现,通过对比表数据量级的波动,判断当日的数据是否准确。 2 可以通过异常值进行判断。表中字段字符,或者数值出现了非法情况,可以判断数据不准确。 3 准确性也可以通过数据类型,以及数据的长度进行校验。 4 对于数据也可以通过数据的分部情况进行验证。字符乱码的问题或者字符被截断的问题,可以使用分布来发现这类问题,一般的数据记录基本符合正态分布或者类正态分布,那么那些占比异常小的数据项很可能存在问题,比如某个字符记录占总体的占比只有0.1%,而其他的占比都在3%以上,那么很有可能这个字符记录有异常。 一致性: 1如果数据记录格式有标准的编码规则,那么对数据记录的一致性检验比较简单,只要验证所有的记录是否满足这个编码规则就可以。比如身份证号都是18位,前面17位均是数字等。 2 对于可数的枚举,可以通过映射校验。比如省份等,可以把这些唯一值映射到有效的32个省市的列表,如果无法映射,那么字段通不过一致性检验。如“浙江”而不是“浙江省”。 3 一致性中逻辑规则的验证相对比较复杂,指标的统计逻辑的一致性需要底层数据质量的保证,同时也要有非常规范和标准的统计逻辑的定义,所有指标的计算规则必须保证一致。常见的问题就是汇总数据和细分数据加起来的结果对不上。如果需要审核这些数据逻辑的一致性,我们可以建立一些“有效性规则”,比如A>=B,如果C=B/A,那么C的值应该在[0,1]的范围内等,数据无法满足这些规则时,就无法通过一致性检验。

四、常见可配置的监控规则

表级非空记录:历史全量表(无分区):表里没有记录条数时告警;分区表:分区等于T-1时,无数据记录条数告警。 表环比监控:根据历史周期计算数据量波动的范围,设置上下阈值,环比超出阈值,进行告警。 目标表原表校验:如果目标表的数据量同原表的数据量对比,超出环比的上下阈值,进行告警。 表主键唯一:如果统计出的主键的记录条数和表的记录条数不一致,进行告警。 非空校验:表中有些字段不会出现空值的况,对该字段惊醒空值监控,如果出现空值,进行告警。 字符长度:如果数据中数据的长度超过预定长度的上下阈值进行告警 枚举值校验:如果数据中出现枚举范围外的数据,进行告警,此种情况适用于枚举值量小的情况。 字段环比监控:如果表中某字段的值域超出波动范围的上下阈值,进行告警,比如增长率,交易额等。 数据类型校验:如果数字型字段,数据中出现字符,进行告警。 字段数字极值监控:如果字段的数值超过该数据设置的上下的极值,进行告警。 字段字符非法校验:如果字段的数据中出现了非法字符,进行告警。 字段空置占比告警;如果字段中的空置率查出设定的上下阈值,进行告警。 产出时间监控:基于任务链路设置任务的SLA,任务超如设定时间未完成,进行告警。

点赞
收藏
评论区
推荐文章
Stella981 Stella981
3年前
App推广:数据分析与渠道质量及17款国内数据分析工具对比
!(https://oscimg.oschina.net/oscnet/a0b4279bd387cbf6988fa0319ea871af6a9.jpg)Part1如何从数据评估渠道质量Part2国内数据分析工具介绍Part3如何从数据辨别渠道作弊Part1、如何从数据评估渠道质量渠道数量过多,鱼龙混杂,想要挑
邢德全 邢德全
1年前
万界星空科技MES系统在设备管理中的多个应用场景
万界星空科技MES系统在设备管理中具有多种应用场景,可以帮助企业实现对设备状态监控、维护计划制定、生产计划和调度、质量管理、库存管理以及数据分析和决策支持等全方位的管理和控制,提高企业的生产效率和产品质量。
邢德全 邢德全
1年前
​万界星空科技MES系统如何进行产品的质量管理
质量管理也是万界星空科技云MES中的一个重要组成部分,旨在帮助制造企业实现全面的质量管理。该系统涵盖了供应商来料、生产过程、质量检验、数据分析等各个环节,为企业提供了一站式的质量管理解决方案。​
京东云开发者 京东云开发者
6个月前
「零售数据通道」数据炼金术:千亿级流量资产湖仓架构转型
作者:京东零售陈美航0前言在流量领域的转化分析、搜索推广算法及AI等数据分析应用场景中,流量资产的质量直接影响到业务的监测和运营。作为流量资产的基石,流量数仓在应对快速变化和多样化的业务需求时,如何在提高效率、优化用户体验和控制成本方面做到最佳?本文将方案
ES集群迁移方案总结
本文分享自天翼云开发者社区《ES集群迁移方案总结》,作者:刘鑫ES集群迁移可以通过以下几种方式实现,具体方案的选择,需要根据数据量、索引类型、网络情况等进行方案评估和选择。在实施迁移时,需确保目标集群能够承载迁移的数据量,并考虑到集群的可用性、数据一致性和
OLAP分析数据库适用场景及主流产品对比
本文分享自天翼云开发者社区《》,作者:刘鑫随着企业数字化程度不断提升,数据分析场景越老越丰富,企业在以下几种场景下可能需要使用OLAP(OnlineAnalyticalProcessing,在线分析处理)分析数据库来开展数据分析工作:1.复杂的数据分析:当
数据治理的长效机制
本文分享自天翼云开发者社区《》,作者:徐东数据治理遇到的困难数据治理是一个复杂而又富有挑战性的工作,需要各级管理人员和业务部门的积极参与和协作。虽然数据治理的目标“协同、降本、提效、创新”看似简单明了,但在实际操作中却会遇到各种各样的问题。问题1:组织运行
数据治理之数据分类分级
本文分享自天翼云开发者社区《》,作者:徐东为了更好地保护数据安全、提高数据管理效率、确保数据合规性,企业需要对数据进行分类分级,根据数据的密级和敏感程度制定不同的管理和使用策略,尽可能做到有差别和针对性的防护,避免敏感数据的防护不足,非敏感数据的过度防护。
数据治理之构建数据资产目录
本文分享自天翼云开发者社区《》,作者:徐东一、引言现如今,数据已经成为企业实现业务价值的关键。随着大数据技术的发展,企业对于数据的收集、分析和利用越来越重视。其中,数据资产化已经成为企业数据管理的重要趋势,它能帮助企业更好地发掘和利用数据中的价值,从而提升
数据治理之数据资产健康度量
本文分享自天翼云开发者社区《》,作者:徐东随着数据量的不断增加,数据治理已经成为了企业管理里不可或缺的一环。数据治理可以帮助我们更好地进行数据的管理和使用,从而提升数据的质量和价值,同时也能够保证数据的安全和合规。一、数据治理面临的问题数据治理中主要面临的
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
885
粉丝
16
获赞
40