Spark 1.6.0 源码精读

Stella981
• 阅读 553

Spark 1.6.0

一般程序的入口都是这个步骤,Config->Context

Spark也不例外,先从入口开始

SparkConf:Spark 应用程序的配置

/**
  * SparkConf.scala 
  *
  *
  * Configuration for a Spark application. Used to set various Spark parameters as key-value pairs.
  *
  * Most of the time, you would create a SparkConf object with `new SparkConf()`, which will load
  * values from any `spark.*` Java system properties set in your application as well. In this case,
  * parameters you set directly on the `SparkConf` object take priority over system properties.
  *
  * For unit tests, you can also call `new SparkConf(false)` to skip loading external settings and
  * get the same configuration no matter what the system properties are.
  *
  * All setter methods in this class support chaining. For example, you can write
  * `new SparkConf().setMaster("local").setAppName("My app")`.
  *
  * Note that once a SparkConf object is passed to Spark, it is cloned and can no longer be modified
  * by the user. Spark does not support modifying the configuration at runtime.
  *
  * @param loadDefaults whether to also load values from Java system properties
  */

SparkContext:

/**
 * SparkContext.scala
 *
 * 
 * Main entry point for Spark functionality. A SparkContext represents the connection to a Spark
 * cluster, and can be used to create RDDs, accumulators and broadcast variables on that cluster.
 *
 * Only one SparkContext may be active per JVM.  You must `stop()` the active SparkContext before
 * creating a new one.  This limitation may eventually be removed; see SPARK-2243 for more details.
 *
 * @param config a Spark Config object describing the application configuration. Any settings in
 *   this config overrides the default configs as well as system properties.
 */

SparkContext :由上述注释可知:

  • Spark功能的主入口。

  • 充当与Spark Cluster的连接的角色

  • 在集群中创建RDD,累加器,广播器

另外:

  • Spark程序的注册是通过SparkContext实例化时产生的对象来完成的,具体是被SchedulerBackend注册给集群的。standalone的模式下,是SparkDeploySchedulerBackend。

  • Spark程序运行的时候要通过Cluster Manager来获取具体的计算资源,计算资源的获取也是SparkContext产生的对象申请的。

  • Spark的调度优化也是基于SparkContext的,RDD创建完后不会立即执行,会由SparkContext中的TaskScheduler和DAGScheduler等来调度优化。

  • SparkContext奔溃或者结束时,整个Spark程序也结束了。

综上所述:SparkContext主要是是创建RDD、累加器、广播、注册程序、获取计算资源、调度优化。

上述的SchedulerBackend中的Scheduler可以理解为是TaskScheduler,而不是DAGScheduler。也就是说SchedulerBackend是TaskScheuler的backend。

从调度角度来看,分为DAGScheduler和TaskScheduler,都是保证进度按时完成的。

假如拿盖房子来说,可以分为打地基,砌墙,盖顶,粉刷等阶段[stage]。而具体里面每一个阶段中,比如砌墙,可以分为砌东南西北墙等。

DAGScheduler属于高层调度器,只要是负责Stage层面的调度和失败重试。比如上面的地基,砌墙,盖顶,粉刷等阶段,而且都是有依赖关系的【shuffle】。如果哪个步骤失败了,也负责通知重试。

TastScheduler属于底层调度器,负责Task层面的调度和失败重试。比如上面的 砌墙中的砌南墙,如果南墙失败了,则负责通知重砌。

SparkContext构建的3大对象:

DAGScheduler:是面向Job的Stage的高层调度器,是一个类。

TaskScheduler:是一个接口。目前只有TaskSchedulerImpl一个实现。

SchedulerBackend:也是一个接口。根据不同的Cluster Manager的不同实现而实现不同。在standalone下,是SparkDeploySchedulerBackend

从整个程序运行时的角度来讲分为4大核心对象:DAGScheduler、TaskScheduler、SchedulerBackend、MapOutputTrackerMaster。

除了上面已有的3个。

MapOutputTrackerMaster是负责Shuffle数据输出和读入的管理。

SparkDeploySchedulerBackend有3大核心功能:

负责与Master连接,注册当前程序。standalone下,由SparkDeploySchedulerBackend的start方法中创建的AppClient中的ClientEndpoint向Master注册的。

接受集群中为应用程序分配的计算资源Executor的注册和管理。主要是向Driver。

将Task发送给Executor。

补充说明的是:SchedulerBackend是被TaskSchedulerImpl管理的。

当通过SparkDeploySchedulerBackend向Master注册程序的时候,Master会将Command发指令给Worker下的Executor,Worker启动Executor所在进程的时候,该进程名字就是CoarseGrainedExecutorBackend。该类是有main方法的入口类。且Executor是先向Driver注册成功后,再启动具体的Executor。

Spark 之SparkContext 源码精读1

点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Wesley13 Wesley13
2年前
java将前端的json数组字符串转换为列表
记录下在前端通过ajax提交了一个json数组的字符串,在后端如何转换为列表。前端数据转化与请求varcontracts{id:'1',name:'yanggb合同1'},{id:'2',name:'yanggb合同2'},{id:'3',name:'yang
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Stella981 Stella981
2年前
Spark scala和java的api使用
1、利用scala语言开发spark的worcount程序(本地运行)packagecom.zy.sparkimportorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}//todo:利用s
Wesley13 Wesley13
2年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
2年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
为什么mysql不推荐使用雪花ID作为主键
作者:毛辰飞背景在mysql中设计表的时候,mysql官方推荐不要使用uuid或者不连续不重复的雪花id(long形且唯一),而是推荐连续自增的主键id,官方的推荐是auto_increment,那么为什么不建议采用uuid,使用uuid究
Python进阶者 Python进阶者
3个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这