全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力

贾敏
• 阅读 341

简介:  阿里云全链路数据湖开发治理解决方案能力持续升级,发布2.0版本。解决方案包含开源大数据平台E-MapReduce(EMR) , 一站式大数据数据开发治理平台DataWorks ,数据湖构建DLF,对象存储OSS等核心产品。支持EMR新版数据湖DataLake集群(on ECS)、自定义集群(on ECS)、Spark集群(on ACK)三种形态,对接阿里云一站式大数据开发治理平台DataWorks,沉淀阿里巴巴十多年大数据建设方法论,为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力,帮助客户提升数据的应用效率。

阿里云全链路数据湖开发治理解决方案能力持续升级,发布2.0版本。解决方案包含开源大数据平台E-MapReduce(EMR) , 一站式大数据数据开发治理平台DataWorks ,数据湖构建DLF,对象存储OSS等核心产品。

解决方案已支持EMR新版数据湖DataLake集群(on ECS)、自定义集群(on ECS)、Spark集群(on ACK)三种形态,对接阿里云一站式大数据开发治理平台DataWorks,沉淀阿里巴巴十多年大数据建设方法论,为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力,帮助客户提升数据的应用效率。

全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力

重点能力升级

增强数据入湖能力

DataWorks 数据集成支持 MySQL 整库实时入湖 OSS(HUDI)、Kafka 实时入湖 OSS(HUDI)、MySQL 到 Hive 整库周期同步能力。

在 DataWorks 管控台选择进入数据集成

全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力

在页面直接点击“创建我的数据同步”

全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力

选择来源和去向类型就可以看到对应入湖能力

MySQL 整库实时入湖 OSS(Hudi)

支持元数据自动注册到阿里云DLF,方便用户进行湖管理;

支持 MySQL 实例级别的同步,即源端 MySQL 可以同时选择多个库;

支持按照正则表达式选定来源 MySQL 库和表;

支持自动加库加表,即 MySQL 侧增加库或表后,可以自动同步至 OSS,无需手工干预和操作。

全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力.png")

Kafka 实时入湖 OSS(Hudi)

支持 Kafka json 数据增量实时入湖,秒级延迟

支持在同步链路中对数据处理,包括数据过滤、脱敏、字符串替换、字段级别赋值等操作

支持根据 kafka json 数据 schema 变化,动态增加字段

支持对接阿里云DLF,入湖元数据自动注册,实时可查可管理

支持自定义 OSS 湖端存储路径

全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力.png")

MySQL 整库离线同步至 Hive

MySQL 整实例级别离线同步至 Hive,支持配置周期调度,也可以在 DataStudio 中依赖此同步调度节点为上游,支持历史全量同步和离线增量同步

全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力.png")

增强作业开发调度能力

支持 spark on ACK 集群调度

DataWorks 支持调度 spark-submit, spark-sql 类型作业到 EMR Spark 集群(on ACK), 用户可以利用 ACK 的弹性能力按需调整集群资源,实现和应用程序混部,使用同一套运维方案的同时,最大程度利用资源。对于原先在新版数据湖 DataLake 集群和自定义集群中运行的 Spark 任务,支持一键迁移到 ACK 集群,无需修改代码。

开发能力升级

支持空间内各模块设置 yarn 队列

随着越来越多的客户开始使用数据湖处理数据、分析数据,计算资源优先保障重要ETL任务产出成为了普遍诉求。DataWorks 支持为不同模块设置任务的 yarn 队列,包括数据分析、数据开发、运维等,保障不同场景的计算资源隔离需求。

支持工作空间级别 Spark Conf 设置

很多用户发现为每个 spark 作业设置 conf 是一件比较繁琐的事情。而集群往往多部门共享,在集群级别做 default 设置会影响到其他用户。DataWorks 在支持单任务设置 conf 的同时,提供工作空间级别设置 spark conf 的能力, 作用于空间下的所有 spark 任务。

支持数据分析下载最多500万条记录

支持管理员设置最大下载量,通过数据分析模块,最多支持500万行数据下载到本地。

增强数据治理能力

数据治理中心能力升级

支持基于数据湖架构的数据健康分评估

Dataworks 数据治理中心提供覆盖事前问题检测、事中问题拦截、事后问题发现的主动式数据治理能力。新增对 Dataworks 数据开发+DLF元数据管理用户,进行多维度数据健康分评估。

全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力.png")

支持基于研发/存储维度的数据治理问题识别

面向 E-MapReduce 用户可支持数据规范治理场景,内置研发、存储、安全维度的十余类内置治理项及知识库,可面向 Dataworks EMR 研发过程中的数据任务及存储问题,进行基于治理项规则的自动问题发现,推动负责人进行问题的及时治理。

全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力.png")

数据治理中心支持基于 EMR Hive/Spark SQL 任务的事前主动治理

Dataworks 数据治理中心新增10种内置数据检查项,可针对 Dataworks 数据研发侧的 Hive SQL 及 Spark SQL 任务,针对提交、发布环节,进行数据问题的检查和自动拦截,进行事前问题预防。

全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力.png")

全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力

钉钉扫码入群,体验dataworks on emr 数据湖治理并获得首月开通优惠大礼包

全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力

点赞
收藏
评论区
推荐文章
Stella981 Stella981
4年前
JindoFS解析
作者:殳鑫鑫,花名辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。2019年云栖大会上,EMRJindo的技术存储分离方案得到很大的关注,视频直达链接【云上大数据的一种高性能数据湖存储方案】(https://www.oschina.net/action/GoToLink?ur
Stella981 Stella981
4年前
Apache Hudi和Presto的前世今生
一篇由ApacheHudiPMCBhavaniSudhaSaktheeswaran和AWSPresto团队工程师BrandonScheller分享ApacheHudi和Presto集成的一篇文章。1\.概述ApacheHudi是一个快速迭代的数据湖存储系统,可以帮助企业构建和管理PB级数据湖,Hudi通过引入up
Stella981 Stella981
4年前
Flink集成iceberg数据湖之合并小文件
背景使用流式数据入湖开启压缩程序快照过期删除无用文件数据查询遇到的坑最大并发度问题文件被重复压缩扫描任务读取文件问题不读取大文
“京东云深海数据平台” 焕新升级 免费体验!
深海数据平台致力于为每一个数据客户提供灵活化、一站式、智能化的数据开发与管理工具。同时,根据客户行业提供成熟的数据业务全链路解决方案,包括数据集成、开发、元数据管理等功能,帮助数据开发人员快速高效地完成数据相关工作,使得企业更加科学规划和合理构建全域数据,
“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!
9月4日,“天翼云息壤——大模型训推一体化服务能力升级”线上发布会成功举办。会上,息壤平台训推服务能力重磅升级,新增闭源、多模态基座大模型以及数据集,支持万卡规模训练,训练稳定性再次提升,新增体验空间,为基础大模型训练、行业大模型训推提供一站式解决方案。
数据治理的长效机制
本文分享自天翼云开发者社区《》,作者:徐东数据治理遇到的困难数据治理是一个复杂而又富有挑战性的工作,需要各级管理人员和业务部门的积极参与和协作。虽然数据治理的目标“协同、降本、提效、创新”看似简单明了,但在实际操作中却会遇到各种各样的问题。问题1:组织运行
数据治理之构建数据资产目录
本文分享自天翼云开发者社区《》,作者:徐东一、引言现如今,数据已经成为企业实现业务价值的关键。随着大数据技术的发展,企业对于数据的收集、分析和利用越来越重视。其中,数据资产化已经成为企业数据管理的重要趋势,它能帮助企业更好地发掘和利用数据中的价值,从而提升
数据治理之数据资产健康度量
本文分享自天翼云开发者社区《》,作者:徐东随着数据量的不断增加,数据治理已经成为了企业管理里不可或缺的一环。数据治理可以帮助我们更好地进行数据的管理和使用,从而提升数据的质量和价值,同时也能够保证数据的安全和合规。一、数据治理面临的问题数据治理中主要面临的
中国电信天翼云全国产化大数据平台落地广西!
近期,中国电信天翼云采用国产化操作系统、应用软件的大数据平台在广西南宁正式上线并投入使用。该项目由天翼云与广西某公司合作,通过天翼云大数据平台翼MR、CTyunOS操作系统等产品,构建了集数据湖和批流一体处理能力的大数据平台。
Forrester Wave™报告:天翼云三项产品能力获评最高分!
8月5日,国际权威研究机构Forrester发布了《ForresterWave™:中国公有云平台厂商评测,2024Q3》报告。中国电信天翼云凭借前瞻性的发展战略和领先的产品能力,跻身行业头部玩家阵营。同时,中国电信天翼云在数据治理服务、网络和内容交付服务、先进通讯和区块链服务三项产品能力均获得了评测内的最高分。