Wesley13 Wesley13
2年前
java操作hdfs
1packagehdfs;23importjava.io.FileNotFoundException;4importjava.io.IOException;5importjava.net.URI;67importorg.apache.had
Wesley13 Wesley13
2年前
HDFS安装
最近内部需求,要求我把数据上传HDFS,顺便分享一下如何安装并查看HDFS文件目录我是在ubuntu(14.04.2)上安装的:1.我安装ubuntu用的不是Hadoop用户,所以要新建一个Hadoop用户  $ sudouseradd\mhadoops/bin/bash设置密码$sudo
Stella981 Stella981
2年前
MapReduce统计单词
一、HDFS个人理解      HDFS是个文件系统,只不过加了个分布式作为文件系统的前缀而已,大概的结构就像LINUX系统。文件大的一个电脑存储不下,怎办?那就想办法存储到不同的机子上呗,于是HDFS就应用而生了。众所周知,文件在硬盘上是以文件块的形式存储。什么句柄啊,真心不懂,只能感知,没人能明白0和1,当然也没必要。二、Map个人理解
Stella981 Stella981
2年前
Hadoop2.7.3完全分布式集群安装过程
需要安装的软件Hadoop包含HDFS集群和YARN集群。部署Hadoop就是部署HDFS和YARN集群。机器数量、角色4台。NameNode1台、DataNode3台主机名IP角色amaster192.168.37.143NameNode:9000ResourceManag
Stella981 Stella981
2年前
Hbase调用JavaAPI实现批量导入操作
将手机上网日志文件批量导入到Hbase中。操作步骤:1、将日志文件(请下载附件)上传到HDFS中,利用hadoop的操作命令上传:hadoop fsputinput /!(https://oscimg.oschina.net/oscnet/e1254fdb6c2c34ad1344d14e23082b6fe86.png"点击查看原始大小
Stella981 Stella981
2年前
Hadoop压缩
一、Hadoop压缩简介1、hadoop的3个阶段(1)分布式文件系统HDFS(2)分布式编程框架MapReduce(3)yarn框架2、Hadoop数据压缩MR操作过程中进行大量数据传输。压缩技术能够有效的减少底层存储(HDFS)读写字
Wesley13 Wesley13
2年前
HDFS是什么?为什么要使用它?
hdfs是hadoop的文件管理系统,主要有两部分:一个是NameNode:主要作用是负责接收客户端求,告知datanode的blk存储位置,维护hdfs的目录树;另一个是DateNode:主要是把文件分割成blk存储在不同的服务器上,并且负责产生副本,也能定期向NameNode汇报blk的情况;使用hdfs的好处是提高系统的高可用性:因为hdf
Stella981 Stella981
2年前
Hadoop MapReduce执行过程详解(带hadoop例子)
分析MapReduce执行过程MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出。Reducer任务会接收Mapper任务输出的数据,作为自己的输入数据,调用自己的方法,最后输出到HDFS的文件中。整个流程如图:!image
Stella981 Stella981
2年前
Hadoop配置多个HDFS入口
为了验证存在不同的hdfs之间的hive的互操作(归根结底还是为了解决BUG)需要在两个不同的hadoop集群的HDFS 能够在Hiveserver2上进行路由转发绕过一些坑。就需要将某hdfs集群的配置文件改改。。例如hdfssite.xmlEG:<?xmlversion"1.0"encoding"UTF8"?<?
Stella981 Stella981
2年前
Hive在SQL标准权限模式下创建UDF失败的问题排查
环境:CDH5.16Hive1.1.0已开启KerberosHive授权使用SQLStandardsBasedAuthorization模式(以下简称SSBA模式)症状表现:在编译好UDF的jar包之后,上传到HDFS目录。hdfs dfsmkdi