大数据通用组件故障处理

天翼云开发者社区
• 阅读 130

本文分享自天翼云开发者社区《大数据通用组件故障处理》,作者:f****n

HDFS 1.HDFS 服务一直异常 检查HDFS是否处于安全模式。 检查ZooKeeper服务是否运行正常。

2.HDFS 维护客户端出现OutOfMemoryError 异常 使用HDFS客户端之前,需要在HADOOP_CLIENT_OPTS更新"-Xmx" GC参数。 直接执行如下命令: export HADOOP_CLIENT_OPTS="$HADOOP_CLIENT_OPTS -Xmx512m" 在命令中调整参数,减少HDFS维护客户端运行命令时所需的内存。 当执行hdfs dfs -ls /user////命令时上报OutOfMemoryError,您可以执行类似的命令来获取目录。例如:hdfs dfs -ls -R /user。

3.NameNode 的主备倒换失败 需要格式化ZKFC,并将元数据从主NameNode拷贝到新增的NameNode节点中。

Zookeeper 1.ZooKeeper 无法对外提供服务 检查ZooKeeper安装并运行的实例是否为奇数个,如3个、5个。 恢复故障的ZooKeeper服务。

2.安装DNS 导致ZooKeeper 服务异常 ZooKeeper所在节点的“/etc/hosts”配置错误,ZooKeeper所在节点配置了DNS服务。 检查ZooKeeper故障节点的“/etc/hosts”文件中,IP和主机名是否正确,是否有一个IP对应多个主机名,或者一个主机名对应多个IP的情况。 确认ZooKeeper所在的节点没有安装DNS服务

Yarn 1.ResourceManager 原生界面的链接不可用 检查本地的“hosts”文件中是否对HostName和IP的对应关系进行了配置。检查该集群是否开放了相应端口。

2.ResourceManager 节点故障 查看是否有Yarn服务不可用告警产生,并且告警原因为No active instance,参考告警中描述操作。 检查ZooKeeper服务状态,如果没有告警,说明ZooKeeper服务正常,不用检查。检查网络状态。

Spark 1.任务挂起,报Initial job has not accepted any resources 异常 查看集群内每台节点中的“/etc/hosts”文件中是否加入了客户端节点的IP和主机名。如果“/etc/hosts”文件未加入,则修改文件,重试跑应用。 若“/etc/hosts”加入了客户端节点的IP和主机名后,该问题还存在时,查看Executor端对应的进程CoarseGrainedExecutorBackend是否存在。如果不存在,可能是由于executor memory配置太大导致的。

2.内存不足,无法退出应用程序 执行命令强制将任务退出,然后通过修改内存参数的方式解决内存不足的问题,使任务执行成功。 针对此类数据量大的任务,希望任务不再挂起,遇到内存不足时,直接提示任务运行失败。

3.由于磁盘空间不足导致运行应用程序失败 应用程序中,若有shuffle操作时,会将shuffle的数据写到磁盘中。当磁盘空间不够时,便会出现“No space left on device”错误。

建议在执行Spark开发程序之前,应先根据实际数据量,估算shuffle过程的数据的大小,配置足够的磁盘空间再提交应用程序。

点赞
收藏
评论区
推荐文章
Springfox与SpringDoc——swagger如何选择(SpringDoc入门)
本文分享自天翼云开发者社区@《》,作者:才开始学技术的小白0.引言之前写过一篇关于swagger(实际上是springfox)的使用指南(https://www.ctyun.cn/developer/article/371704742199365),涵盖了
Wesley13 Wesley13
2年前
HDFS知识学习
HDFS设计前提与目标1.硬件错误是常态而不是异常。HDFS被设计为运行在普通硬件上,所以硬件故障时正常的,HDFS可能由成百上千的服务器节点构成,每个服务器节点上都存储着文件系统的部分数据,而HDFS的每个组件随时都有可能出现故障。因此,错误检测并快速自动恢复是HDFS的最核心的设计目标。2.流式数据访问。运行在HDFS上的应用主要是
Wesley13 Wesley13
2年前
JAVA运行时异常及常见的5中RuntimeExecption
java运行时异常是可能在java虚拟机正常工作时抛出的异常。java提供了两种异常机制。一种是运行时异常(RuntimeExepction),一种是检查式异常(checkedexecption)。检查式异常:我们经常遇到的IO异常及sql异常就属于检查式异常。对于这种异常,java编译器要求我们必须对出现的这些异常进行catch所以面对这种异
Stella981 Stella981
2年前
Linux查看是否被入侵
一.检查系统日志lastb命令检查系统错误登陆日志,统计IP重试次数二.检查系统用户1、cat/etc/passwd查看是否有异常的系统用户2、grep“0”/etc/passwd查看是否产生了新用户,UID和GID为0的用户3、lsl/etc/passwd查看passwd的修改时间,判断是否在不知的情况下添加用户4、查看
无服务器Serverless总结
本文分享自天翼云开发者社区@《》,作者:我是小朋友背景随着AWSLambda的诞生,无服务器与FaaS一起出现在舞台中,Serverless也开始进入人们的视野。全球各大云服务厂商都纷纷推出各自的Serverless平台。先了解下什么是云计算云计算是通过I
PostgreSQL:psql 介绍
本文分享自天翼云开发者社区《》,作者:周平psql命令是与PostgreSQL服务器交互的客户端程序,要登录到数据库服务器,需要使用psql客户端工具或者第三方客户端工具如PostgreSQLforNavicat,pgAdmin,Visualizer等等。
基于Linux系统的PXE搭建方法
本文分享自天翼云开发者社区《》,作者:tn一、底层环境准备1、安装RedHat7.6系统2、关闭防火墙和Selinuxsystemctlstopfirewalldchkconfigfirewalldoffvim/etc/sysconfig/selinux修
简单概述Serverless
本文分享自天翼云开发者社区@《​​》,作者:我是小朋友Serverless是计算的趋势,它使诸如Web应用程序之类的代码执行与维护服务器以运行该代码的需求脱钩。创建,供应和维护服务器上运行的应用程序的操作开销(传统意义上)非常重要。减少或消除这项工作可以帮
Knative Autoscaler 自定义弹性伸缩
本文分享自天翼云开发者社区@《》,作者:我是小朋友背景如今各大云厂商都开始提供ServerlessKubernetes服务,简化集群管理,降低运维管理负担,让Kubernetes更加简单。那么问题来了,一个系统到底需要具备怎样的能力才能更好地支撑Serve
使用element-ui 的上传组件upload完成自定义上传到天翼云oss云服务器
本文分享自天翼云开发者社区@《》,作者:我是小朋友首先配置天翼云,如下操作1、要求在使用OOS之前,首先需要在www.ctyun.cn注册一个账号(Account)。创建AccessKeyId和AccessSecretKey。AccessKeyId和Acc
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
494
粉丝
8
获赞
37