package com.charles.parseweather.compression; 
  
     
  
     
  
    import org.apache.hadoop.conf.Configuration; 
  
    import org.apache.hadoop.fs.Path; 
  
    import org.apache.hadoop.io.IntWritable; 
  
    import org.apache.hadoop.io.Text; 
  
    import org.apache.hadoop.io.compress.CompressionCodec; 
  
    import org.apache.hadoop.io.compress.GzipCodec; 
  
    import org.apache.hadoop.mapreduce.Job; 
  
    import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
  
    import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 
  
    import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
  
    import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; 
  
     
  
     
  
    /** 
  
     *  
  
     * 
  
     * Description: 这个类定义并且运行作业,压缩版 
  
     * 
  
     * @author charles.wang 
  
     * @created May 24, 2012 5:29:12 PM 
  
     * 
  
     */ 
  
     
  
    public class MaxTemperatureWithCompression { 
  
     
  
        /** 
  
         * @param args 
  
         */ 
  
        public static void main(String[] args) throws Exception{ 
  
            // TODO Auto-generated method stub 
  
     
  
             
  
            if (args.length !=2){ 
  
                System.err.println("Usage: MaxTemperature <input path> <output path>"); 
  
                System.exit(-1); 
  
            } 
  
             
  
            //创建一个Map-Reduce的作业 
  
            Configuration conf = new Configuration(); 
  
            conf.set("hadoop.job.ugi", "hadoop-user,hadoop-user"); 
  
             
  
            //在这里我们配置一些和压缩有关的参数 
  
             
  
            //我们设定reduce输出结果使用gzip压缩的形式 
  
            conf.setBoolean("mapred.output.compress", true); 
  
            conf.setClass("mapred.output.compression.codec", GzipCodec.class, CompressionCodec.class); 
  
             
  
             
  
             
  
            Job job = new Job(conf,"Get Maximum Weather Information with Compression! ^_^"); 
  
             
  
           
  
             
  
             
  
             
  
            //设定作业的启动类/  
  
            job.setJarByClass(MaxTemperatureWithCompression.class); 
  
             
  
            //解析输入和输出参数，分别作为作业的输入和输出，都是文件 
  
            FileInputFormat.addInputPath(job, new Path(args[0])); 
  
            FileOutputFormat.setOutputPath(job, new Path(args[1])); 
  
            
  
            //配置作业，设定Mapper类，Reducer类 
  
            job.setMapperClass(MaxTemperatureMapper.class); 
  
            job.setReducerClass(MaxTemperatureReducer.class); 
  
            job.setOutputKeyClass(Text.class); 
  
           job.setOutputValueClass(IntWritable.class); 
  
            
  
            
  
          
  
             
  
            System.exit(job.waitForCompletion(true)?0:1); 
  
            
  
             
  
             
  
             
  
             
  
     
  
        } 
  
     
  
    }

要运行这个例子，我们需要给出输入文件，因为Hadoop系统可以根据输入文件的扩展名自动识别基本文件，所以我们创建目录结构，并且上传一个gzip格式的文件作为map-reduce过程的输入：

然后我们运行的main中传入HDFS的输入文件和输出目录：

当执行完成之后，我们就可以在HDFS文件系统中看到最终的输出结果了，正如我们所预期的，这个结果是个gzip格式的文件：

知识点

相关文章

最近更新

Hadoop Map-Reduce的压缩最终输出文件

相关问答

关于hadoop的问题，进来看看呀[2023-07-31]

远程运行Hadoop map-reduce作业导致EOFException？(Runnning Hadoop map-reduce job remotely causes EOFException?)[2023-07-11]

基准测试Hadoop Map-Reduce应用程序(Benchmarking Hadoop Map-Reduce application)[2023-10-26]

Hadoop Map-Reduce OutputFormat用于将结果分配给内存中变量（不是文件）？(Hadoop Map-Reduce OutputFormat for assigning result to in-memory variable (not files)?)[2022-06-04]

复合键变了，Hadoop Map-Reduce？(Composite key getting changed, Hadoop Map-Reduce?)[2023-03-07]

Muliple集合作为hadoop map-reduce工作的mongodb的输入(Muliple collections as input of mongodb for hadoop map-reduce job)[2022-01-18]

在Hadoop map-reduce中对连接的数据进行分组(Grouping joined data in Hadoop map-reduce)[2022-04-21]

从多个mysql表到hadoop map-reduce的数据(data from mutiple mysql tables to hadoop map-reduce)[2024-03-30]

Hadoop map-reduce操作在写入输出时失败(Hadoop map-reduce operation is failing on writing output)[2022-02-21]

无法通过stdin在AWS上使用流式python map-reduce读取Hadoop序列文件(Unable to read Hadoop Sequence files through stdin with a streaming python map-reduce on AWS)[2022-02-17]