极客星球| 数据质量保障之路的探索与实践 - HelloWorld开发者社区

极客星球| 数据质量保障之路的探索与实践

算法流光使

2021-11-29 17:03 • 阅读 1105

极客星球| 数据质量保障之路的探索与实践

前言

数据从生产到应用，会经历5大环节，数万张数据表。面对不同产品线的复杂数据质量场景，数据质量平台如何满足多样的需求？
MobTech袤博科技作为一家拥有数据源到数据应用全链路数据处理能力及算力的科技智能公司，如何解决大数据场景下数据链路长、数据体量大、数据逻辑复杂等一系列痛点难题？本文将通过线下数据保障、线上数据保障、自动化测试3大环节来剖析各环节数据质量保障措施，帮助你在实际的工作中，探索和沉淀出可复制的0到1数据质量保障方法。

背景

数据即资产，有了数据+模型+算力，便有了持续将数据应用于业务场景的能力。而数万张库表是否每日按时生成、生成的数据字段是否完整、生成数据的逻辑是否正确、生成数据分布是否合理、生成数据是否一致都会影响业务使用，而这些便是数据质量的范畴。

数据从生产到应用，主要经历数据源、数据清洗、数据计算、数据中间件再到数据应用5大环节。用户直观感受的数据，都在数据应用层。前4个环节都是为了得出最后1层的数据结果。

极客星球| 数据质量保障之路的探索与实践

一、整体方案

极客星球| 数据质量保障之路的探索与实践

二、线下数据，如何保障？

数据生产前的数据验证，是保障数据质量的重要阶段，也是提前规避问题的主要环节。做好数据验证，数据验证包含数据梳理、数据测试、过程管理3个方面。

1.数据梳理

极客星球| 数据质量保障之路的探索与实践

2.数据测试

数据测试，主要包括功能需求理解、分析方案梳理、数据流向梳理、开发代码走查、数据表验证几个环节。以数据表验证为例，分别从以下维度验证：

极客星球| 数据质量保障之路的探索与实践

3.过程管理

主要包括数据测试指导规范、准入准出标准、Bug定级、提测模板、报告模板、知识库积累。

三、线上质量，如何保障？

1.数据监控

定级监控：系统定期清理库表，即使每日按规则清理后，总库表量也在数万以上。兼顾广度及深度，通过库表定级，按等级监控。

极客星球| 数据质量保障之路的探索与实践

极客星球| 数据质量保障之路的探索与实践

监控结果：

1)规则设定

按不同表及监控维度，添加监控指标。

极客星球| 数据质量保障之路的探索与实践

2)监控结果查看

收到告警，查看详情，分析告警内容。

极客星球| 数据质量保障之路的探索与实践

2.调度监控

从数据源到数据应用，就像是一条逐步细分的河流，而这一条条通道就像是调度系统中每日task。河流流速是否正常，分支是否阻塞。在生产过程中，可以通过调度告警来发现。核心调度识别，调度告警链路覆盖。

1)根据核心表和核心标签对应的表
2)梳理出核心调度
3)调度任务添加告警机制

四、自动化测试

自动化测试的目的是将复杂的内容，用工具简单化。将重复性高的事项，用工具自动化。按照不同的业务方向，将自动化分为以下6个模块。

1.数据迭代自动化测试

应用场景：当已有表的新逻辑上线前，需要从各个维度对比测试表数据和线上表数据，保证数据变动合理性。

2.数据EDA探索

应用场景：当有新需求提测时，可以通过智能自动化测试方式，快速知道一张表的具体情况，如字段空值率、数据唯一性等。

3.批量数据自动化测试

应用场景：在对多表执行其共有测试用例时使用，从而提升效率。

4.可视化报表

应用场景：针对具体业务需求，实现数据时间序列趋势图等，直观感受数据波动。

5.数据安全扫描

应用场景：每周定期扫描数万张库表，智能发现潜在安全隐患。

6.数据字段定级

应用场景：数十万字段等级评定。

五、总结

团队目前针对数万张库表定级，数千张库表监控、数千个指标监控覆盖。数万张库表定期安全扫描，数十万字段等级评定。但在整体数据质量保障中仍有提升空间待完成，如：

监控维度，针对业务场景定制监控维度不够
业务层面，需要和业务伙伴总结业务规则，增强业务层面验证
自动化待平台化，数据验证平台一体化
通用数据验证智能化，自动识别字段并生成自动化验证用例
监控添加智能化，根据历史周期及字段，智能生成监控规则
…

数据库数据分析

点赞

收藏

评论区

算法流光使

Lv1

故园今夕是元宵，独向蛮村坐寂寥

文章

7

粉丝

0

获赞

0

热门文章

Java 小类型与大类型

代码走读（第一篇）---ethereumj之Repository快照功能

前端面试js高频手写大全

[转载] C程序的函数栈作用机理

大厂技术实现 | 详解知识图谱的构建全流程 @自然语言处理系列