Hadoop中的RPC

Stella981
• 阅读 563

1. RPC的基础概念

  RPC,即Remote Procdure Call,中文名:远程过程调用;更详细内容可以转到RPC原理及RPC实例分析学习。

  (1)它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的。因此,它经常用于分布式网络通信中。

RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。

  (2)Hadoop的进程间交互都是通过RPC来进行的,比如Namenode与Datanode直接,Jobtracker与Tasktracker之间等。

因此,可以说:Hadoop的运行就是建立在RPC基础之上的。Hadoop RPC是Hadoop的一个重要部分,提供分布式环境下的对象调用功能,源码在org.apache.hadoop.ipc中。而HBase也几乎完全copy了这部分的源码,只是在配置项上面有所改动。

2. Hadoop中的RPC机制

  同其他RPC框架一样,Hadoop RPC分为四个部分:

  (1)序列化层:Clent与Server端通信传递的信息采用了Hadoop里提供的序列化类或自定义的Writable类型;

  (2)函数调用层:Hadoop RPC通过动态代理以及java反射实现函数调用;

  (3)网络传输层:Hadoop RPC采用了基于TCP/IP的socket机制;

  (4)服务器端框架层:RPC Server利用java NIO以及采用了事件驱动的I/O模型,提高RPC Server的并发处理能力;

  Hadoop RPC在整个Hadoop中应用非常广泛,Client、DataNode、NameNode之间的通讯全靠它了。例如:我们平时操作HDFS的时候,使用的是FileSystem类,它的内部有个DFSClient对象,这个对象负责与NameNode打交道。在运行时,DFSClient在本地创建一个NameNode的代理,然后就操作这个代理,这个代理就会通过网络,远程调用到NameNode的方法,也能返回值。

Hadoop中的RPC

3. Hadoop RPC设计技术

(1)动态代理

(2)反射——动态加载类

(3)序列化

(4)非阻塞的异步IO(NIO)

4. Hadoop RPC实例

(1)Protocol

被远程访问的类,也就是Server端,必须实现VersionedProtocol接口,这个接口只有一个方法getProtocolVersion,用来判断Server和Client端调用的是不是一个版本的,一般Server的代码修改一次,版本号就得改一次。

在例子中,我们定义一个接口MyProtocol,继承VersionedProtocol,里面定义Server端需要实现的方法。

这里MyProtocol接口只有一个方法println,输入一个Text,打印出来,并返回一个Text。

MyProtocol.java代码如下:

import org.apache.hadoop.io.Text;
 import org.apache.hadoop.ipc.VersionedProtocol;
 
 public interface MyProtocol extends VersionedProtocol {
     public Text println(Text t);
 }

(2)Server

Server端实现上述的Protocol接口,里面需要启动一个RPC.Server,它是一个Thread。

构造方法是RPC.getServer(Object instance, String bindAddress, int port, Configuration conf)

  • instance:表示提供远程访问的对象,一般Server都会传入this作为参数;
  • bindAddress:Server绑定的ip地址;
  • port:Server绑定的端口;
  • conf:Configuration对象,不用解释了吧。

MyServer实现了MyProtocol接口中定义的println方法,将参数打印到控制台,并返回finish。

MyServer.java代码如下:

 import java.io.IOException;
 import java.net.UnknownHostException;
 
 import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.io.Text;
 import org.apache.hadoop.ipc.RPC;
 import org.apache.hadoop.ipc.RPC.Server;
 
 public class MyServer implements MyProtocol{
     private Server server;
     
     public MyServer(){
         try {
             server = RPC.getServer(this, "localhost", 8888, new Configuration());
             server.start();
             server.join();
         } catch (UnknownHostException e) {
             e.printStackTrace();
         } catch (IOException e) {
             e.printStackTrace();
         } catch (InterruptedException e) {
             e.printStackTrace();
         }
     }
     
     @Override
     public Text println(Text t){
         System.out.println(t);
         return new Text("finish");
     }
 
     @Override
     public long getProtocolVersion(String protocol, long clientVersion) throws IOException {
         return 1;
     }
     
     public static void main(String[] args) {
         new MyServer();
     }
 
 }

(3)Client

Client端需要创建一个Server的远程代理,并可以通过操作这个代理,来调用到Server端的方法。

创建代理可以调用RPC.waitForProxy(Class protocol, long clientVersion, InetSocketAddress addr, Configuration conf)

  • protocol:一个Protocol的class,它必须是继承VersionedProtocol的接口;
  • clientVersion:客户端的版本号,如果与服务端不一致,则会抛错;
  • addr:一个InetSocketAddress对象,包含了ip和port;
  • conf:不解释。

这个方法会返回一个VersionedProtocol类型的代理对象,将它强制转型成自己定义的Protocol,接下来就可以操作创建好的代理了。在例子中,我们通过代理来让Server端打印字符串到控制台,并接受返回的消息。

MyClient.java代码如下:

 import java.io.IOException;
 import java.net.InetSocketAddress;
 
 import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.io.Text;
 import org.apache.hadoop.ipc.RPC;
 
 public class MyClient {
     
     private MyProtocol proxy;
 
     public MyClient(){
         InetSocketAddress addr = new InetSocketAddress("localhost",8888);
         try {
             proxy = (MyProtocol) RPC.waitForProxy(MyProtocol.class, 1, addr , new Configuration());
         } catch (IOException e) {
             e.printStackTrace();
         }
     }
     
     public void println(String s){
         System.out.println(proxy.println(new Text(s)));
     }
 
     public void close(){
         RPC.stopProxy(proxy);
     }
     
     public static void main(String[] args) {
         MyClient c = new MyClient();
         c.println("123");
         c.close();
     }
 }

(4)运行

运行MyServer,控制台显示:

2011-12-30 18:49:56 -[INFO] Initializing RPC Metrics with hostName=MyServer, port=8888
2011-12-30 18:49:56 -[INFO] IPC Server listener on 8888: starting
2011-12-30 18:49:56 -[INFO] IPC Server Responder: starting
2011-12-30 18:49:56 -[INFO] IPC Server handler 0 on 8888: starting

运行MyClient,控制台显示:

finish

MyServer端会追加显示:

123
点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Easter79 Easter79
2年前
swap空间的增减方法
(1)增大swap空间去激活swap交换区:swapoff v /dev/vg00/lvswap扩展交换lv:lvextend L 10G /dev/vg00/lvswap重新生成swap交换区:mkswap /dev/vg00/lvswap激活新生成的交换区:swapon v /dev/vg00/lvswap
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Wesley13 Wesley13
2年前
RPC 定义 和 原理
一、RPC  1.RPC是什么  RPC(RemoteProcedureCallProtocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了
Stella981 Stella981
2年前
Rpc基础 原理 框架
一.RPC的原理1.RPC是什么RPC(RemoteProcedureCallProtocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC
Stella981 Stella981
2年前
Python中的远程过程调用rpc
软硬件环境Pythonhprosexmlrpc什么是RPC远程过程调用(RemoteProcedureCall)是一个计算机通信协议,它允许运行于一台计算机的程序调用另一台计算机的程序,就像调用本地程序一样简单方便。python中rpc的实现x
Stella981 Stella981
2年前
RPC简介与hdfs读过程与写过程简介
1.RPC简介RemoteProcedureCall远程过程调用协议  RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
3个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这