Hadoop Map-Reduce的压缩最终输出文件

2019-03-28 13:42|来源: 网络

Hadoop 可以在作业的Configuration对象中通过设定一系列参数来改变作业的行为,比如,我们需要进行一个map-reduce作业,并且吧最终作业reduce过程的结果输出为压缩的格式,我们可以在一般的map-reduce上进行一些定制。

实现

还是以以前做的删选最高气温的例子为参照:

以前的例子可以见这篇文章:http://www.linuxidc.com/Linux/2012-05/61196.htm

我们现在要求让结果输出为压缩格式,所以保持Map类(MaxTemperatureMapper)和Reduce类(MaxTemperatureReducer)不变,只要在Job类的Configuration作一些压缩的配置即可,见第45-49行所示:

 
   
  1. package com.charles.parseweather.compression; 
  2.  
  3.  
  4. import org.apache.hadoop.conf.Configuration; 
  5. import org.apache.hadoop.fs.Path; 
  6. import org.apache.hadoop.io.IntWritable; 
  7. import org.apache.hadoop.io.Text; 
  8. import org.apache.hadoop.io.compress.CompressionCodec; 
  9. import org.apache.hadoop.io.compress.GzipCodec; 
  10. import org.apache.hadoop.mapreduce.Job; 
  11. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
  12. import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 
  13. import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
  14. import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; 
  15.  
  16.  
  17. /** 
  18.  *  
  19.  * 
  20.  * Description: 这个类定义并且运行作业,压缩版 
  21.  * 
  22.  * @author charles.wang 
  23.  * @created May 24, 2012 5:29:12 PM 
  24.  * 
  25.  */ 
  26.  
  27. public class MaxTemperatureWithCompression { 
  28.  
  29.     /** 
  30.      * @param args 
  31.      */ 
  32.     public static void main(String[] args) throws Exception{ 
  33.         // TODO Auto-generated method stub 
  34.  
  35.          
  36.         if (args.length !=2){ 
  37.             System.err.println("Usage: MaxTemperature <input path> <output path>"); 
  38.             System.exit(-1); 
  39.         } 
  40.          
  41.         //创建一个Map-Reduce的作业 
  42.         Configuration conf = new Configuration(); 
  43.         conf.set("hadoop.job.ugi""hadoop-user,hadoop-user"); 
  44.          
  45.         //在这里我们配置一些和压缩有关的参数 
  46.          
  47.         //我们设定reduce输出结果使用gzip压缩的形式 
  48.         conf.setBoolean("mapred.output.compress"true); 
  49.         conf.setClass("mapred.output.compression.codec", GzipCodec.class, CompressionCodec.class); 
  50.          
  51.          
  52.          
  53.         Job job = new Job(conf,"Get Maximum Weather Information with Compression! ^_^"); 
  54.          
  55.        
  56.          
  57.          
  58.          
  59.         //设定作业的启动类/  
  60.         job.setJarByClass(MaxTemperatureWithCompression.class); 
  61.          
  62.         //解析输入和输出参数,分别作为作业的输入和输出,都是文件 
  63.         FileInputFormat.addInputPath(job, new Path(args[0])); 
  64.         FileOutputFormat.setOutputPath(job, new Path(args[1])); 
  65.         
  66.         //配置作业,设定Mapper类,Reducer类 
  67.         job.setMapperClass(MaxTemperatureMapper.class); 
  68.         job.setReducerClass(MaxTemperatureReducer.class); 
  69.         job.setOutputKeyClass(Text.class); 
  70.        job.setOutputValueClass(IntWritable.class); 
  71.         
  72.         
  73.       
  74.          
  75.         System.exit(job.waitForCompletion(true)?0:1); 
  76.         
  77.          
  78.          
  79.          
  80.          
  81.  
  82.     } 
  83.  

要运行这个例子,我们需要给出输入文件,因为Hadoop系统可以根据输入文件的扩展名自动识别基本文件,所以我们创建目录结构,并且上传一个gzip格式的文件作为map-reduce过程的输入:

然后我们运行的main中传入HDFS的输入文件和输出目录:

当执行完成之后,我们就可以在HDFS文件系统中看到最终的输出结果了,正如我们所预期的,这个结果是个gzip格式的文件:

相关问答

更多