大数据通用组件故障处理

夏侯杰
• 阅读 65

本文分享自天翼云开发者社区《大数据通用组件故障处理》,作者:f**n

HDFS
1.HDFS 服务一直异常
检查HDFS是否处于安全模式。
检查ZooKeeper服务是否运行正常。

2.HDFS 维护客户端出现OutOfMemoryError 异常
使用HDFS客户端之前,需要在HADOOP_CLIENT_OPTS更新"-Xmx" GC参数。
直接执行如下命令:
export HADOOP_CLIENT_OPTS="$HADOOP_CLIENT_OPTS -Xmx512m"
在命令中调整参数,减少HDFS维护客户端运行命令时所需的内存。
当执行hdfs dfs -ls /user////命令时上报OutOfMemoryError,您可以执行类似的命令来获取目录。例如:hdfs dfs -ls -R /user。

3.NameNode 的主备倒换失败
需要格式化ZKFC,并将元数据从主NameNode拷贝到新增的NameNode节点中。

Zookeeper
1.ZooKeeper 无法对外提供服务
检查ZooKeeper安装并运行的实例是否为奇数个,如3个、5个。
恢复故障的ZooKeeper服务。

2.安装DNS 导致ZooKeeper 服务异常
ZooKeeper所在节点的“/etc/hosts”配置错误,ZooKeeper所在节点配置了DNS服务。
检查ZooKeeper故障节点的“/etc/hosts”文件中,IP和主机名是否正确,是否有一个IP对应多个主机名,或者一个主机名对应多个IP的情况。
确认ZooKeeper所在的节点没有安装DNS服务

Yarn
1.ResourceManager 原生界面的链接不可用
检查本地的“hosts”文件中是否对HostName和IP的对应关系进行了配置。检查该集群是否开放了相应端口。

2.ResourceManager 节点故障
查看是否有Yarn服务不可用告警产生,并且告警原因为No active instance,参考告警中描述操作。
检查ZooKeeper服务状态,如果没有告警,说明ZooKeeper服务正常,不用检查。检查网络状态。

Spark
1.任务挂起,报Initial job has not accepted any resources 异常
查看集群内每台节点中的“/etc/hosts”文件中是否加入了客户端节点的IP和主机名。如果“/etc/hosts”文件未加入,则修改文件,重试跑应用。
若“/etc/hosts”加入了客户端节点的IP和主机名后,该问题还存在时,查看Executor端对应的进程CoarseGrainedExecutorBackend是否存在。如果不存在,可能是由于executor memory配置太大导致的。

2.内存不足,无法退出应用程序
执行命令强制将任务退出,然后通过修改内存参数的方式解决内存不足的问题,使任务执行成功。
针对此类数据量大的任务,希望任务不再挂起,遇到内存不足时,直接提示任务运行失败。

3.由于磁盘空间不足导致运行应用程序失败
应用程序中,若有shuffle操作时,会将shuffle的数据写到磁盘中。当磁盘空间不够时,便会出现“No space left on device”错误。
建议在执行Spark开发程序之前,应先根据实际数据量,估算shuffle过程的数据的大小,配置足够的磁盘空间再提交应用程序。

点赞
收藏
评论区
推荐文章
待兔 待兔
1年前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
使用element-ui 的上传组件upload完成自定义上传到天翼云oss云服务器
本文分享自天翼云开发者社区@《》,作者:我是小朋友首先配置天翼云,如下操作1、要求在使用OOS之前,首先需要在www.ctyun.cn注册一个账号(Account)。创建AccessKeyId和AccessSecretKey。AccessKeyId和Acc
AF_XDP技术简介
本文分享自天翼云开发者社区@《》,作者:ln一.概述AFXDP是一项新增的,针对高性能数据包处理进行优化的地址族协议。本文档假设读者已经熟悉BPF和XDP。如果没有,可以参考开源Cilium项目在(http://cilium.readthedocs.io/
基于Linux系统的PXE搭建方法
本文分享自天翼云开发者社区《》,作者:tn一、底层环境准备1、安装RedHat7.6系统2、关闭防火墙和Selinuxsystemctlstopfirewalldchkconfigfirewalldoffvim/etc/sysconfig/selinux修
大数据通用组件故障处理
本文分享自天翼云开发者社区《》,作者:fnHDFS1.HDFS服务一直异常检查HDFS是否处于安全模式。检查ZooKeeper服务是否运行正常。2.HDFS维护客户端出现OutOfMemoryError异常使用HDFS客户端之前,需要在HADOOPCLIE
中国电信天翼云全国产化大数据平台落地广西!
近期,中国电信天翼云采用国产化操作系统、应用软件的大数据平台在广西南宁正式上线并投入使用。该项目由天翼云与广西某公司合作,通过天翼云大数据平台翼MR、CTyunOS操作系统等产品,构建了集数据湖和批流一体处理能力的大数据平台。
批量创建云主机的整个过程
本文分享自天翼云开发者社区《》,作者:乐道上次我们讲述了云主机创建的流程,整个过程中并没有详细区分各个组件的基本功能,本章节将会为大家详细讲述批量创建过程中各个组件的处理过程。1、我们通过console或openapi进行批量创建云主机的下单操作,例如批量
libvirt和qga的区别?
本文分享自天翼云开发者社区《》,作者:乐道Libvirt是一个开源项目,提供了一组API、工具、库,用于管理和控制虚拟化平台。在Openstack环境中,Libvirt是一个至关重要的组件,它为各种虚拟化技术(如KVM、QUME、Xen和LXC)提供统一的
chrony时间同步软件介绍
本文分享自天翼云开发者社区《》,作者:刘苏chrony是网络时间协议NTP的通用实现,它可以将系统时钟和NTP服务器同步。它支持在各种条件下包括间歇性的网络连接、严重阻塞的网络、不断变化的温度以及支持不连续的运行并且可以运行于虚机上。本文介绍chrony工
OLAP分析数据库适用场景及主流产品对比
本文分享自天翼云开发者社区《》,作者:刘鑫随着企业数字化程度不断提升,数据分析场景越老越丰富,企业在以下几种场景下可能需要使用OLAP(OnlineAnalyticalProcessing,在线分析处理)分析数据库来开展数据分析工作:1.复杂的数据分析:当
数据治理之构建数据资产目录
本文分享自天翼云开发者社区《》,作者:徐东一、引言现如今,数据已经成为企业实现业务价值的关键。随着大数据技术的发展,企业对于数据的收集、分析和利用越来越重视。其中,数据资产化已经成为企业数据管理的重要趋势,它能帮助企业更好地发掘和利用数据中的价值,从而提升