首页 \ 教程 \ hadoop

知识点

hadoop

Hadoop pipes初学笔记

【Hadoop实战】在Mac OS上编译 Hadoop Pipes 库

Hadoop下的Pipes(用C++进行Hadoop程序开发)

【Hadoop学习】在伪分布式Hadoop上实践word count程序——C/C++ Pipes版本

Hadoop HDFS 编程

Hadoop 上使用C 语言编程

Hadoop现场演示与编程过程 PPT

Mapreduce Hadoop流编程入门

Java并发编程总结---Hadoop核心源码实例解读

用 Hadoop 进行分布式并行编程, 第 1 部分基本概念与安装部署

Hadoop中map/reduce编程中关于mapper和reducer的Format问题

Jni在Hadoop上的使用

用 Hadoop 进行分布式并行编程, 第 2 部分程序实例与分析

Hbase基于Mapreduce的编程

Hadoop实战

Hadoop pipes编程

2019-03-28 13:52|来源: 网络

Hadoop pipes编程介绍

更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

Hadoop pipes允许C++程序员编写mapreduce程序，它允许用户混用C++和Java的RecordReader， Mapper， Partitioner，Rducer和RecordWriter等五个组件。关于Hadoop pipes的设计思想，可参见我这篇文章：Hadoop Pipes设计原理。
本文介绍了Hadoop pipes编程的基本方法，并给出了若干编程示例，最后介绍了Hadoop pipes高级编程方法，包括怎样在MapReduce中加载词典，怎么传递参数，怎样提高效率等。
2. Hadoop pipes编程初体验
Hadoop-0.20.2源代码中自带了三个pipes编程示例，它们位于目录src/examples/pipes/impl中，分别为wordcount-simple.cc，wordcount-part.cc和wordcount-nopipe.cc。下面简要介绍一下这三个程序。
（1） wordcount-simple.cc：Mapper和Reducer组件采用C++语言编写，RecordReader, Partitioner和RecordWriter采用Java语言编写，其中，RecordReader 为LineRecordReader（位于InputTextInputFormat中，按行读取数据，行所在的偏移量为key，行中的字符串为value），Partitioner为PipesPartitioner，RecordWriter为LineRecordWriter（位于InputTextOutputFormat中，输出格式为”key\tvalue\n”）
（2） wordcount-part.cc：Mapper，Partitioner和Reducer组件采用C++语言编写，其他采用Java编写
（3）wordcount-nopipe.cc：RecordReader，Mapper，Rducer和RecordWriter采用C++编写
接下来简单介绍一下wordcount-simple.cc的编译和运行方法。
在Hadoop的安装目录下，执行下面命令：

ant -Dcompile.c++=yes examples

则wordcount-simple.cc生成的可执行文件wordcount-simple被保存到了目录build/c++-examples/Linux-amd64-64/bin/中，然后将该可执行文件上传到HDFS的某一个目录下，如/user/XXX/ bin下：

bin/hadoop fs -put build/c++-examples/Linux-amd64-64/bin/wordcount-simple C++/
上传一份数据到HDFS的wordcount目录下：

直接使用下面命令提交作业：

hadoop pipes -D hadoop.pipes.java.recordreader=true -D hadoop.pipes.java.recordwriter=true -D mapred.job.name= wordcount -input wordcount -output out -program C++/wordcount-simple

3. Hadoop pipes编程方
先从最基础的两个组件Mapper和Reducer说起。
（1） Mapper编写方法
用户若要实现Mapper组件，需继承HadoopPipes::Mapper虚基类，它的定义如下：

class Mapper: public Closable {
public:
virtual void map(MapContext& context) = 0;
};

用户必须实现map函数，它的参数是MapContext，该类的声明如下：

class MapContext: public TaskContext {
public:
virtual const std::string& getInputSplit() = 0;
virtual const std::string& getInputKeyClass() = 0;
virtual const std::string& getInputValueClass() = 0;
};

而TaskContext类地声明如下：

class TaskContext {
public:
class Counter {
……
public:
Counter(int counterId) : id(counterId) {}
Counter(const Counter& counter) : id(counter.id) {}
……
};
virtual const JobConf* getJobConf() = 0;
virtual const std::string& getInputKey() = 0;
virtual const std::string& getInputValue() = 0;
virtual void emit(const std::string& key, const std::string& value) = 0;
virtual void progress() = 0;
…….
};

用户可以从context参数中获取当前的key，value，progress和inputsplit等数据信息，此外，还可以调用emit将结果回传给Java代码。
Mapper的构造函数带有一个HadoopPipes::TaskContext参数，用户可以通过它注册一些全局counter，对于程序调试和跟踪作业进度非常有用：
如果你想注册全局counter，在构造函数添加一些类似的代码：

WordCountMap(HadoopPipes::TaskContext& context) {
inputWords1 = context.getCounter(“group”, ”counter1”);
inputWords2 = context.getCounter(“group”, ”counter2”);
}

当需要增加counter值时，可以这样：

context.incrementCounter(inputWords1, 1);
context.incrementCounter(inputWords2, 1);

其中getCounter的两个参数分别为组名和组内计数器名，一个组中可以存在多个counter。
用户自定义的counter会在程序结束时，输出到屏幕上，当然，用户可以用通过web界面看到。

知识点

相关文章

最近更新

Hadoop pipes编程

相关问答

电脑应用专业出来找什么工作啊？[2023-05-22]

信息与电脑科学是学什么的？[2022-11-19]

hadoop pipes怎么用[2021-09-13]

hadoop编程书籍推荐[2023-08-14]

hadoop，spark用什么语言编程[2022-07-10]

Hadoop Text类(Hadoop Text class)[2022-02-21]

链接Hadoop MapReduce与管道（C ++）(Chaining Hadoop MapReduce with Pipes (C++))[2022-04-08]

Hadoop HDFS依赖(Hadoop HDFS dependency)[2022-10-17]