云计算与Hadoop期末考试知识点复习

桃浪十七丶
• 阅读 1247

七、八、九、十、十二、十三放到一起理解。

一、大数据的概念和特点、分类

又称巨量数据,是指数据量达到无法用 人脑,甚至现有工具获取,处理,并整理成为帮助企业经营决策更积极目的的资讯。

特点:数据量大,类型多,时效性,速度快,真实性。

分类:传统企业数据,机器和传感器数据,社交数据。

二、云计算的概念,特点

云计算是基于互联网的计算机方式,通过这计算方式,可以把共享的软硬件信息按需分配给计算机和其他设备。

特点:虚拟,灵活,可靠,可扩展,性价比高,按需部署。

三、Iaas,Paas,Saas

Iaas是基础设施即服务,完全的自助服务,主要提供基础资源。

Paas是平台即服务,主要提供软件部署平台,屏蔽底层实现细节和操作系统,开发者只需要关注业务逻辑问题。

Saas软件即服务,完全把软件开发管理托福第三方平台,不需要关乎技术问题,直接拿来使用。

四、虚拟化技术的概念和特征

虚拟化技术,是指通过虚拟化,把一台计算机虚拟化为多台逻辑计算机,多个逻辑计算机可以同时运行不同的操作系统。软件在相互独立的空间内运行且互不打扰,提高计算机的工作效率。

特征:分区,隔离,封装,硬件独立。

五、Hadoop的特征,优缺点,运行模式

特征:分布式架构,多租户环境,采用HDFS架构,可靠的文件系统,丰富的计算引擎,基于Hadoop的Spark架构可以处理更多的数据请求。

优点:高效,可扩展,容错低成本,可靠。

缺点:不适合低延迟的数据访问,不适合大量小文件,不支持多用户写入并修改文件。

运行模式:本地模式:Hadoop没有守护进程,程序运行在一个JVM上。

伪分布式:Hadoop守护进程运行在本地机器上,模拟小型集群。

全分布式:Hadoop的守护进程运行在集群中。

六、HDFS的概念和特征

概念:分布式的文件系统,用于存储文件,由很多计算机联合实现功能。

特征:面向大规模数据的,运行在廉价机器上的,简单地一致性,流式访问。

七、HDFS处理任务流程

云计算与Hadoop期末考试知识点复习

八、JobTracker、TaskTracker节点的工作原理及特征(*)

(1)一个集群中只有一个JobTracker进程,它运行在主节点上。该进程负责将应用程序与Hadoop系统对接。当执行用户提交的应用程序时,JobTracker负责确定要处理的文件,并为所执行任务分配指定的节点主机。 (2)TaskTracker进程在从节点上,与同样位于从节点的负责存储数据的DataNode进程相结合进行工作。TaskTracker的作用是独立管理其所在从节点上的任务进程。 (3)每个从节点上只有一个TaskTracker,但它可以产生多个JVM进程,以并行处理多个Map和Reduce任务。TaskTracker的一个重要职责是与JobTracker进行定时通讯联络。 (4)如果JobTracker不能准时获得TaskTracker的联络信息,则认为该节点已崩溃。这会导致JobTracker将任务重新分配给其他从节点。

九、DataNode、NameNode节点的工作原理及特征(*)

主节点的NameNode进程是HDFS文件系统的守护进程。该进程负责: 记录文件是如何分割成数据块,以及存储数据块的数据节点的信息。 对内存和I/O进行集中管理 通常情况下,运行NameNode的服务器上是不执行计算任务的,从而避免降低系统性能。另外,NameNode进程是单点的运行的,一旦宕机,将导致整个系统瘫痪。 各从节点服务器均会运行一个DataNode后台进程,负责将HDFS数据块读写到本地文件系统。 当客户端有读/写要求时,NameNode告诉客户端去哪个DataNode进行读/写操作。这样客户端将直接与这个DataNode服务器的进程进行读/写访问

十、Host、Slave节点特征(*)

(1)Host节点主要对域名解析到哪个虚拟主机进行配置,其name属性即为访问的域名。 作为主节点(Master Node)的主机一个Hadoop集群中只能有一个主节点。 主节点是集群的核心,负责协调和管理对所有从节点的数据访问和计算工作。 作为从节点(Slave Node)的主机,除主节点主机外的所有主机均作为从节点。数据分布在各从节点上,由HDFS进行统一管理。 各从节点还担任着数据的计算工作。此工作由节点上的MapReduce子系统来完成。

十一、MapReduce的优点和特征

优点 (1)对硬件低要求,MapReduce模型是面向由数千台中低端计算机组成的大规模集群而设计的,基于此优点MapReduce模型可以在现有的异构集群中很好的运行。 (2)接口化,MapReduce模型通过简单的接口实现了大规模分布式计算的自动并行化,它屏蔽了需要大量并行代码去实现的容错、负载均衡和数据分布等复杂细节,程序员只需关注实际操作数据的Map函数和Reduce函数即可。 (3)编程语言多样化,MapReduce模型支持Java、C、C++、Python、Shell、PHP、Ruby等多种开发语言,程序员可以选择所熟悉的语言编写Map函数和Reduce函数。 (4)扩展性强,它采用的shared-nothing结构保证了其良好的伸缩性,同时,使其具有了各个节点间的松耦合性和较强的容错能力,进而节点可以被任意地从集群中移除,而几乎不影响现有任务的执行。 (5)数据分析低延迟,基于MapReduce模型的数据分析,无需复杂的数据预处理和写入数据库的过程,而是直接基于平面文件进行分析,并且其采用的计算模式是移动计算而非移动数据[3],因此可以将分析延迟最小化。

特征

MapReduce是一个基于集群的高性能并行计算平台 MapReduce是一个并行计算与运行软件框架 MapReduce是一个并行程序设计模型与方法

十二、MapReduce处理流程

云计算与Hadoop期末考试知识点复习

十三、shuffle & sort的过程

云计算与Hadoop期末考试知识点复习

十四、“心跳”的概念

心跳机制是定时发送一个自定义的结构体(心跳包),让对方知道自己还活着,以确保连接的有效性的机制。

十五、HBase的特征

(1)适合存储超大文件
(2)适用于流式的数据访问
(3)支持简单的一致性模型
(4)计算向数据靠拢
点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
2年前
java将前端的json数组字符串转换为列表
记录下在前端通过ajax提交了一个json数组的字符串,在后端如何转换为列表。前端数据转化与请求varcontracts{id:'1',name:'yanggb合同1'},{id:'2',name:'yanggb合同2'},{id:'3',name:'yang
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Peter20 Peter20
2年前
mysql中like用法
like的通配符有两种%(百分号):代表零个、一个或者多个字符。\(下划线):代表一个数字或者字符。1\.name以"李"开头wherenamelike'李%'2\.name中包含"云",“云”可以在任何位置wherenamelike'%云%'3\.第二个和第三个字符是0的值wheresalarylike'\00%'4\
Stella981 Stella981
2年前
Python之time模块的时间戳、时间字符串格式化与转换
Python处理时间和时间戳的内置模块就有time,和datetime两个,本文先说time模块。关于时间戳的几个概念时间戳,根据1970年1月1日00:00:00开始按秒计算的偏移量。时间元组(struct_time),包含9个元素。 time.struct_time(tm_y
Wesley13 Wesley13
2年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
2年前
Java日期时间API系列36
  十二时辰,古代劳动人民把一昼夜划分成十二个时段,每一个时段叫一个时辰。二十四小时和十二时辰对照表:时辰时间24时制子时深夜11:00凌晨01:0023:0001:00丑时上午01:00上午03:0001:0003:00寅时上午03:00上午0
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
2个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这