轻松使用Hadoop RPC

2019-03-28 14:07|来源: 网络

Hadoop RPC是Hadoop的一个重要部分,提供分布式环境下的对象调用功能,源码在org.apache.hadoop.ipc中。而HBase也几乎完全copy了这部分的源码,只是在配置项上面有所改动。

关于Hadoop RPC的机制分析和源码解读,网上已经有许多资料,一搜一大把,这里就不在描述了。本文通过一个小例子,介绍如何调用Hadoop RPC。

1. 应用场景

Hadoop RPC在整个Hadoop中应用非常广泛,Client、DataNode、NameNode之间的通讯全靠它了。

举个例子,我们平时操作HDFS的时候,使用的是FileSystem类,它的内部有个DFSClient对象,这个对象负责与NameNode打交道。在运行时,DFSClient在本地创建一个NameNode的代理,然后就操作这个代理,这个代理就会通过网络,远程调用到NameNode的方法,也能返回值。

在我的应用场景中,需要一个元数据服务器,各节点经常需要去查询元数据,可以使用这套RPC机制。

2. Protocol

被远程访问的类,也就是Server端,必须实现VersionedProtocol接口,这个接口只有一个方法getProtocolVersion,用来判断Server和Client端调用的是不是一个版本的,一般Server的代码修改一次,版本号就得改一次。

在例子中,我们定义一个接口MyProtocol,继承VersionedProtocol,里面定义Server端需要实现的方法。

这里MyProtocol接口只有一个方法println,输入一个Text,打印出来,并返回一个Text。

MyProtocol.java代码如下:

1 import org.apache.hadoop.io.Text;
2 import org.apache.hadoop.ipc.VersionedProtocol;
3
4 public interface MyProtocol extends VersionedProtocol {
5 public Text println(Text t);
6 }
 

3. Server

Server端实现上述的Protocol接口,里面需要启动一个RPC.Server,它是一个Thread。

构造方法是RPC.getServer(Object instance, String bindAddress, int port, Configuration conf)

  • instance:表示提供远程访问的对象,一般Server都会传入this作为参数;
  • bindAddress:Server绑定的ip地址;
  • port:Server绑定的端口;
  • conf:Configuration对象,不用解释了吧。

MyServer实现了MyProtocol接口中定义的println方法,将参数打印到控制台,并返回finish。

MyServer.java代码如下:

 1 import java.io.IOException;
2 import java.net.UnknownHostException;
3
4 import org.apache.hadoop.conf.Configuration;
5 import org.apache.hadoop.io.Text;
6 import org.apache.hadoop.ipc.RPC;
7 import org.apache.hadoop.ipc.RPC.Server;
8
9 public class MyServer implements MyProtocol{
10 private Server server;
11
12 public MyServer(){
13 try {
14 server = RPC.getServer(this, "localhost", 8888, new Configuration());
15 server.start();
16 server.join();
17 } catch (UnknownHostException e) {
18 e.printStackTrace();
19 } catch (IOException e) {
20 e.printStackTrace();
21 } catch (InterruptedException e) {
22 e.printStackTrace();
23 }
24 }
25
26 @Override
27 public Text println(Text t){
28 System.out.println(t);
29 return new Text("finish");
30 }
31
32 @Override
33 public long getProtocolVersion(String protocol, long clientVersion) throws IOException {
34 return 1;
35 }
36
37 public static void main(String[] args) {
38 new MyServer();
39 }
40
41 }
 

4. Client

Client端需要创建一个Server的远程代理,并可以通过操作这个代理,来调用到Server端的方法。

创建代理可以调用RPC.waitForProxy(Class protocol, long clientVersion, InetSocketAddress addr, Configuration conf)

  • protocol:一个Protocol的class,它必须是继承VersionedProtocol的接口;
  • clientVersion:客户端的版本号,如果与服务端不一致,则会抛错;
  • addr:一个InetSocketAddress对象,包含了ip和port;
  • conf:不解释。

这个方法会返回一个VersionedProtocol类型的代理对象,将它强制转型成自己定义的Protocol,接下来就可以操作创建好的代理了。在例子中,我们通过代理来让Server端打印字符串到控制台,并接受返回的消息。

MyClient.java代码如下:

 1 import java.io.IOException;
2 import java.net.InetSocketAddress;
3
4 import org.apache.hadoop.conf.Configuration;
5 import org.apache.hadoop.io.Text;
6 import org.apache.hadoop.ipc.RPC;
7
8 public class MyClient {
9
10 private MyProtocol proxy;
11
12 public MyClient(){
13 InetSocketAddress addr = new InetSocketAddress("localhost",8888);
14 try {
15 proxy = (MyProtocol) RPC.waitForProxy(MyProtocol.class, 1, addr , new Configuration());
16 } catch (IOException e) {
17 e.printStackTrace();
18 }
19 }
20
21 public void println(String s){
22 System.out.println(proxy.println(new Text(s)));
23 }
24
25 public void close(){
26 RPC.stopProxy(proxy);
27 }
28
29 public static void main(String[] args) {
30 MyClient c = new MyClient();
31 c.println("123");
32 c.close();
33 }
34 }
 

 5. 运行

运行MyServer,控制台显示:

2011-12-30 18:49:56 -[INFO] Initializing RPC Metrics with hostName=MyServer, port=8888
2011-12-30 18:49:56 -[INFO] IPC Server listener on 8888: starting
2011-12-30 18:49:56 -[INFO] IPC Server Responder: starting
2011-12-30 18:49:56 -[INFO] IPC Server handler 0 on 8888: starting

运行MyClient,控制台显示:

finish

MyServer端会追加显示:

123 

相关问答

更多
  • Dubbo和Hadoop基本上就是两个领域的产品,没有太大的可比性。唯一能够比较的是Dubbo和Hadoop内部使用的RPC组件:Avro。Avro多用于Hadoop内部,并没有以独立的RPC框架进行推广和运作,因此你很少看到直接使用他的地方。 类似的还有ZooKeeper的内置框架:jute。而Dubbo则是一个完整的RPC解决方案,包括纯粹的远程过程调用,以及简单的服务治理。是阿里巴巴在2012年开源的框架。
  • 如果如果某一项F比大于F临界值(19.00),说明那一项具有显著性; 你的实验中没有一项是大于19.00的,说明都不有显著性,但是实验的结果还是有参考意义的,在你试验因素中“乳化剂用量”是主要影响因素。
  • RPC协议没有默认端口,它是动态获取端口的。   RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。   RPC 代理运行在IIS计算机上。它接受来自Internet 的RPC 请求,在这些请求上执行认证 ...
  • 呃...简单点说,两者都是非常抽象的模型......这么抽象,它们自然地发生在任何地方...... REST的思想是用一个全局标识符(在HTTP的情况下是URI)访问的资源以CRUD的方式访问(在HTTP中使用POST , GET ,PUT和DELETE ...呃,至少这是这个想法)... RPC是在不同机器上调用过程,传入某些参数并获取返回值的概念。 维基百科上有一个很好的简短比较 Persevere创建了一个服务,它允许这两种方式(以一种非常优雅的方式,无可否认)......它是RESTful (尽管它 ...
  • 在此之前,我们需要准备: hadoop的源码 protobuf 2.5版本 JDK hadoop 2.x版本中采用了Protocol Buffer (简称protobuf)作为序列化和反序列化的工具,所以我们在修改源码时需要按照相应规则编写message来实现数据的传输。 什么是protobuf? protobuf是Google 公司内部的混合语言数据标准,它很适合做数据存储或 RPC 数据交换格式。是一种可用于通讯协议、数据存储等领域,并且和语言无关、平台无关、可扩展的序列化结构数据格式。 简单说来 Pr ...
  • 要获取RPC客户端的进程名称,必须使用RpcServerInqCallAttributes查询进程ID,使用进程ID获取进程句柄的OpenProcess ,以及使用进程句柄获取完整进程名称的QueryFullProcessImageName 。 To get the process name for an RPC client, you must use RpcServerInqCallAttributes to query the process ID, OpenProcess with the proc ...
  • Apache MINA是一个设计精良的异步非阻塞网络框架。 它提供对字节的读写分组数据访问。 建立它有一个过滤系统,可以添加额外的层,提供线路文本解析,加密(通过TLS),压缩等。 PS:强烈推荐2.0版本系列,即使它仍然处于“里程碑”形式,它已被证明非常稳定并且即将发布。 Apache MINA is a very well designed asynchronous non-blocking networking framework. It provides byte-oriented access t ...
  • 找到解决方案。 默认情况下,Hbase以独立模式启动并且随机选择端口。 所以在阅读文档之后,我编辑了hbase-site.xml,如下所示: hbase.cluster.distributed true hbase.regionserver.ipc.address 0.0.0.0
  • hadoop 0.20不支持这个,请阅读本期https://issues.apache.org/jira/browse/HADOOP-6889 hadoop 0.20 doesn't support this, please read this issue https://issues.apache.org/jira/browse/HADOOP-6889
  • 好的,找到原因,我连接到纱线资源管理器的错误端口。 正确的配置是:yarn.resourcemanager.address = localhost:8032 Ok, found the reason, I connected to the wrong port for the yarn resourcemanager. The correct configuration is: yarn.resourcemanager.address=localhost:8032