用PHP写Hadoop的MapReduce程序

2019-03-28 14:02|来源: 网络

Hadoop

虽然Hadoop是用java写的,但是Hadoop提供了Hadoop流,Hadoop流提供一个API, 允许用户使用任何语言编写map函数和reduce函数.
Hadoop流动关键是,它使用UNIX标准流作为程序与Hadoop之间的接口。因此,任何程序只要可以从标准输入流中读取数据,并且可以把数据写入标准输出流中,那么就可以通过Hadoop流使用任何语言编写MapReduce程序的map函数和reduce函数。
例如:bin/hadoop jar contrib/streaming/hadoop-streaming-0.20.203.0.jar -mapper /usr/local/hadoop/mapper.php -reducer /usr/local/hadoop/reducer.php -input test/* -output out4
Hadoop流引入的包:hadoop-streaming-0.20.203.0.jar,Hadoop根目录下是没有hadoop-streaming.jar的,因为streaming是一个contrib,所以要去contrib下面找,以hadoop-0.20.2为例,它在这里:
-input:指明输入hdfs文件的路径
-output:指明输出hdfs文件的路径
-mapper:指明map函数
-reducer:指明reduce函数

mapper函数

mapper.php文件,写入如下代码:

[php]
  1. #!/usr/local/php/bin/php  
  2. <?php  
  3. $word2count = array();  
  4. // input comes from STDIN (standard input)   
  5. // You can this code :$stdin = fopen(“php://stdin”, “r”);   
  6. while (($line = fgets(STDIN)) !== false) {  
  7.     // remove leading and trailing whitespace and lowercase   
  8.     $line = strtolower(trim($line));  
  9.     // split the line into words while removing any empty string   
  10.     $words = preg_split('/\W/'$line, 0, PREG_SPLIT_NO_EMPTY);  
  11.     // increase counters   
  12.     foreach ($words as $word) {  
  13.         $word2count[$word] += 1;  
  14.     }  
  15. }  
  16. // write the results to STDOUT (standard output)   
  17. // what we output here will be the input for the   
  18. // Reduce step, i.e. the input for reducer.py   
  19. foreach ($word2count as $word => $count) {  
  20.     // tab-delimited   
  21.     echo $wordchr(9), $count, PHP_EOL;  
  22. }  
  23. ?>  

这段代码的大致意思是:把输入的每行文本中的单词找出来,并以”

             hello    1
             world  1″

这样的形式输出出来。

和之前写的PHP基本没有什么不同,对吧,可能稍微让你感到陌生有两个地方:

PHP作为可执行程序

第一行的

[php]
  1. #!/usr/local/php/bin/php  
告诉linux,要用#!/usr/local/php/bin/php这个程序作为以下代码的解释器。写过linux shell的人应该很熟悉这种写法了,每个shell脚本的第一行都是这样: #!/bin/bash, #!/usr/bin/python

有了这一行,保存好这个文件以后,就可以像这样直接把mapper.php当作cat, grep一样的命令执行了:./mapper.php

相关问答

更多
  • 1、什么模式?这个问的有点不明不白 2、hadoop只有两种模式,即一般模式和安全模式。 一般模式就是任何hadoop的东西都可以正常的执行,包括读写的任何操作。 安全模式:对hadoop的任何东西,都只有读的权限,不能进行任何的写。
  • 一、 首先要知道此前提 转载 若在windows的Eclipse工程中直接启动mapreduc程序,需要先把hadoop集群的配置目录下的xml都拷贝到src目录下,让程序自动读取集群的地址后去进行分布式运行(您也可以自己写java代码去设置job的configuration属性)。
  • 用户配置并将一个Hadoop作业提到Hadoop框架中,Hadoop框架会把这个作业分解成一系列map tasks 和reduce tasks。Hadoop框架负责task分发和执行,结果收集和作业进度监控。 下图给出了一个作业从开始执行到结束所经历的阶段和每个阶段被谁控制(用户 or Hadoop框架)。
  • 1. 概述 1970年,IBM的研究员E.F.Codd博士在刊物《Communication of the ACM》上发表了一篇名为“A Relational Model of Data for Large Shared Data Banks”的论文,提出了关系模型的概念,标志着关系数据库的诞生,随后几十年,关系数据库及其结构化查询语言SQL成为程序员必须掌握的基本技能之一。 2005年4月,Jeffrey Dean和Sanjay Ghemawat在国际会议OSDI上发表“MapReduce: Simpli ...
  • 都可以,简单的直接用txt打开java文件,写好后打包成class文件,就可以运行了。你看他原来在哪里放class文件的,你就放在那里
  • 本教程提到: 下载Hadoop-core-1.2.1.jar,用于编译和执行MapReduce程序。 访问以下链接http://mvnrepository.com/artifact/org.apache.hadoop/hadoop-core/1.2.1下载jar。 所以在这里你可以找到不同版本的所有罐子 This tutorial mentions : Download Hadoop-core-1.2.1.jar, which is used to compile and execute the MapRe ...
  • 您尝试使用的文件位于本地Linux文件系统上,而不是HDFS上。 所以使用可以使用简单的命令,如: cat /home/Kumar/DEV/Eclipse/eclipse/Workspace/MyFirstMapReduce/Files/input/file1 如果MapReduce程序需要HDFS上的输入文件,则将相同的文件放在作业中的HDFS和HDFS路径上。 您可以使用此命令将文件放在hdfs上: hadoop fs -put
  • 我不确定它是哪个配置属性但是当我从集群中获取配置并创建一个配置对象时,它工作得很好。 I am not exactly sure which configuration property it was but when I took the cofiguration from cluster and create a Configuration objects out of that than it works just fine.
  • Mapper接口按以下顺序需要4个类型参数:Map输入键,Map输入值,Map输出键和Map输出值。 在您的情况下,由于您正在处理4个整数,其中3个构成您的值,1个是您的密钥,因此使用IntWritable作为Map输入键并且应该使用Text而错误。 此外,您在MapClass定义中指定的类型与传递给Map函数的类型不匹配。 鉴于您正在处理文本文件,您的MapClass应定义如下: public static class MapClass extends MapReduceBase implements M ...
  • 你的问题有点宽泛,但我仍会尝试回答。 Hadoop为任何算法执行磁盘读/写操作是因为Hadoop执行面向磁盘的处理并且它是基于这个原则构建的。 这也是为什么开发spark,将计算从磁盘移动到内存以便它可以减少面向磁盘的计算的延迟开销的原因之一。 现在,对于每个MapReduce迭代,从/到磁盘的读/写操作有助于系统的健壮性和可靠性。考虑一个最简单的例子,工作节点有2个容器,这意味着两个独立的JVM将在同一台机器上运行,并且它们将访问该节点上可用的相同数据源。 因此,如果Hadoop在每次更改时都不会在磁盘上 ...