Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

字节旅人
• 阅读 927

2010年,我国进入移动互联网,数据规模成几何式增长。在大数据开源技术领域,以Hadoop为核心的大数据生态系统面对海量数据也不断发展与迭代,大数据处理流程中的各个开源组件,也一起开启了狂飙突进的大数据时代,推动整个行业开启了数字化变革之路。

Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

* 2010-2025年全球数据规模量,来源IDC

近年来,大数据行业的开发者都在感慨:技术迭代更新速度的太快了,今年还在流行,明年就可能被雪藏!其实我们非常清楚,技术永远是在“更新”或“替换”中得到发展。

经过十余年发展,曾经的一些老牌开源项目已风光不在,大数据三驾马车(分布式文件系统GFS、计算引擎MapReduce、分布式数据库BigTable),其中的计算引擎MapReduce 逐渐发展到 Spark 时代,对于大数据调度新星 Apache DolphinScheduler 来说,集成大数据领域优秀的开源项目之后,如何打破数据孤岛,如何降本增效,如何应对大规模的数据离线调度也成为了新的挑战!

Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

众所周知,由于各种原因, 遇到 Apache Spark 应用程序的失败是不可避免的。

最常见的故障之一是 OOM(驱动程序或执行程序级别的内存不足)。

我们可以通过管理(调度、重试、警报等)Spark 应用程序以及 Apache DolphinScheduler 中的其他类型的任务,也不需要 Apache DolphinScheduler 生态系统之外的任何代码,并且还支持拖拉拽 Spark 任务解决其他的一些问题。

Apache Spark 是用于大规模数据处理的统一分析引擎。是一个强大的开源工具,它提供了 Java、Python、Scala 和 R 的高级 API,以及一个优化的引擎,支持用于数据分析和不同工作负载的通用计算图。Spark 另一个有趣的特性是它的快速处理能力和容错能力,您可以放心,在出现资源故障的情况下,您的部署可以保持一致。

Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

为了让两个社区的共同用户既有地方反馈,还有地方学习,我们联合 Apache Spark 社区推出了这个主题活动:洞悉 Spark 任务调度新能力|Apache Spark + DolphinScheduler Meetup,如果你也是接触开源“计算引擎+调度”的用户,想了解最新 Spark 迷人的特性,那这次的分享你一定不要错过了,我们还特地邀请了 EMR 数据开发平台团队负责人孙一凡、BIGO大数据研发工程师许名勇、EMR Spark 引擎负责人周克勇 ,通过他们的分享让你能更快更好更便捷的使用Apahce DolphinScheduler+Spark。

无论你是热衷于钻研开源技术的开发者,还是关注大数据最新技术动态的小伙伴,我都建议你来听听,从中获得全新的灵感。

我相信社区花费精力筹备的活动,你一定能听到一手的分享,得到一手的收获!

Apache DolphinScheduler & Spark 联合 Meetup | 1月线上直播报名通道已开启,赶快预约吧!

时间:2023-1-11 14:00-16:20

形式:线上直播

议程介绍

Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

孙一凡

阿里云高级技术专家

EMR 数据开发平台技术团队负责人

演讲时间:14:00-14:40

演讲题目:Aliyun EMR x DolphinScheduler - 云与开源的合作共生

演讲概要:目前,阿里云EMR团队有多位成员活跃在Apache DolphinScheduler社区,为社区的发展做出了积极的贡献。在这次meetup中,我们将为大家分享选择参与和贡献DS社区的原因,并向大家介绍阿里云EMR基于DS提供的产品和服务能力。

14:40-14:50 直播间抽奖环节

Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

许名勇

BIGO大数据研发工程师

演讲时间:14:50-15:30

演讲题目:Apache DolphinScheduler X Spark 在 BIGO 的应用和改进

演讲概要:介绍了 BIGO 如何使用 DophinScheduler 来调度以 SPARK 为主的多种类型的离线任务,以及为了满足业务需求、提升用户使用体验,在DophinScheduler 和 Spark 上所做的各种改进。

Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

周克勇(一锤)

阿里云高级技术专家

EMR Spark 引擎负责人

演讲时间:15:30-16:20

演讲题目:Spark + Celeborn:更稳,更快,更弹性

演讲概要:Shuffle是以Spark为代表的大数据计算引擎最重要的算子,但主流的Shuffle设计存在随机读、依赖本地盘等缺陷,导致大数据量场景作业稳定性差、性能降低,并且限制了存算分离架构,无法充分利用弹性。Apache Celeborn (incubating)是阿里捐献给Apache基金会的Remote Shuffle Service,它采用Push Shuffle,数据重组,多层存储等设计消除了传统Shuffle的缺陷,有效提升了稳定性和性能,使得存算分离架构得以应用从而让作业更加弹性。此外,Celeborn通过高可用,滚动升级,负载均衡等特性提升了自身服务的可靠性。

福利环节

参与本期更多直播互动即有机会获得社区小礼品

Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

欢迎大家参加1月11日 Apache DolphinScheduler 联合Apache Spark 举办的Meetup活动,下午14:00,我们不见不散。

参与贡献

随着国内开源的迅猛崛起,Apache DolphinScheduler 社区迎来蓬勃发展,为了做更好用、易用的调度,真诚欢迎热爱开源的伙伴加入到开源社区中来,为中国开源崛起献上一份自己的力量,让本土开源走向全球。

参与 DolphinScheduler 社区有非常多的参与贡献的方式,包括:

贡献第一个PR(文档、代码) 我们也希望是简单的,第一个PR用于熟悉提交的流程和社区协作以及感受社区的友好度。

社区汇总了以下适合新手的问题列表:https://github.com/apache/dol...

非新手问题列表:https://github.com/apache/dol...

如何参与贡献链接:https://dolphinscheduler.apac...

来吧,DolphinScheduler开源社区需要您的参与,为中国开源崛起添砖加瓦吧,哪怕只是小小的一块瓦,汇聚起来的力量也是巨大的。

参与开源可以近距离与各路高手切磋,迅速提升自己的技能,如果您想参与贡献,我们有个贡献者种子孵化群,可以添加社区小助手Leonard-ds ,手把手教会您( 贡献者不分水平高低,有问必答,关键是有一颗愿意贡献的心 )。

点赞
收藏
评论区
推荐文章
blmius blmius
4年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Wesley13 Wesley13
4年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Easter79 Easter79
4年前
vue+element 表格formatter数据格式化并且插入html标签
前言   vue中element框架,其中表格组件,我既要行内数据格式化,又要插入html标签一贯思维,二者不可兼得也一、element表格数据格式化  !(https://oscimg.oschina.net/oscnet/3c43a1cb3cbdeb5b5ad58acb45a42612b00.p
皕杰报表(关于日期时间时分秒显示不出来)
在使用皕杰报表设计器时,数据据里面是日期型,但当你web预览时候,发现有日期时间类型的数据时分秒显示不出来,只有年月日能显示出来,时分秒显示为0:00:00。1.可以使用tochar解决,数据集用selecttochar(flowdate,"yyyyMMddHH:mm:ss")fromtablename2.也可以把数据库日期类型date改成timestamp
Jacquelyn38 Jacquelyn38
4年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Java修道之路,问鼎巅峰,我辈代码修仙法力齐天
<center<fontcolor00FF7Fsize5face"黑体"代码尽头谁为峰,一见秃头道成空。</font<center<fontcolor00FF00size5face"黑体"编程修真路破折,一步一劫渡飞升。</font众所周知,编程修真有八大境界:1.Javase练气筑基2.数据库结丹3.web前端元婴4.Jav
3A网络 3A网络
3年前
5 步教你将 MRS 数据导入 DWS
5步教你将MRS数据导入DWSMapReduce服务(MapReduceService,简称MRS)是一个基于开源Hadoop生态环境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据存储和处理需求。用户可以将海量业务数据,存储在MRS的分析集群,即使用Hive/Spark组件保存。Hive/Spark的数据
Vitess全局唯一ID生成的实现方案 | 京东云技术团队
为了标识一段数据,通常我们会为其指定一个唯一id,比如利用MySQL数据库中的自增主键。但是当数据量非常大时,仅靠数据库的自增主键是远远不够的,并且对于分布式数据库只依赖MySQL的自增id无法满足全局唯一的需求。因此,产生了多种解决方案,如UUID,Sn
直播预告丨大模型+Agents疏通京东金融运营堵点
大模型时代,“应用变了”:把大模型装进金融营销分几步?11月24日(周五)14:0015:00开播!数字化打破信息孤岛,也建立更多孤岛运营人员被困在自己的环节里十余个子系统、子模块如何整合?自然语言任务中的“幻觉”如何克服?如何将AI训练成业务运营高手?京