首页 \ 教程 \ hadoop

知识点

hadoop

在Hadoop的streaming中使用自定义的inputformat和outputformat

MapReduce高级编程之自定义InputFormat

Hadoop streaming中指定自定义的inputformat java类

Hadoop : 新版API 自定义InputFormat 把整个文件作为一条记录处理

自定义实现Hadoop Key-Value

自定义Hadoop Writable

自定义Hadoop Map/Reduce输入文件切割InputFormat

Hadoop自定义RecordReader

Hadoop自定义SdfTextInputFormat用在streaming中

自定义Hadoop的可序列化类

实现MapReduce多文件自定义输出

荐 Twitter Storm Stream Grouping编写自定义分组实现

Hadoop Oozie学习笔记自定义安装和启动

[置顶] 【Apache Solr系列】使用IKAnalyzer中文分词以及自定义分词字典

页面自定义布局

Hadoop 自定义InputFormat实现自定义Split

2019-03-28 13:52|来源: 网络

上一篇文章中提到了如何进行RecordReader的重写（见 http://www.linuxidc.com/Linux/2012-04/57831.htm ），本篇文章就是来实现如何实现自定义split的大小

更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

要解决的需求：

（1）一个文本中每一行都记录了一个文件的路径，

（2）要求处理路径对应的文件，但是因为文件量比较大，所以想进行分布式处理

（3）所以就对输入的文档进行预处理，读取前N行做为一个splits，但是没有实现，因为重写FileSplit不是太容易实现，就偷懒直接定义一个split的大小是1000个字节，这样就可以将输入的文档进行分片了。

直接贴代码：

InputFormat

/**
* @file LineInputFormat.java
* @brief自定义InputFormat 实现split大小的控制
* @author anbo, anbo724@gmail.com
* @version 1.0
* @date 2011-10-18
*/
/* Copyright(C)
* For free
*
*/
package an.hadoop.test;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.hadoop.fs.BlockLocation;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionCodecFactory;
import org.apache.hadoop.mapreduce.InputFormat;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.input.LineRecordReader;
public class LineInputFormat extends FileInputFormat<LongWritable , Text> {
public long mySplitSize = 1000;
private static final Log LOG = LogFactory.getLog(FileInputFormat.class);
private static final double SPLIT_SLOP = 1.1; // 10% slop
@Override
public RecordReader<LongWritable, Text>
createRecordReader(InputSplit split,
TaskAttemptContext context) {
return new LineRecordReader(); //为什么不行呢
}
@Override
protected boolean isSplitable(JobContext context, Path file) {
CompressionCodec codec =
new CompressionCodecFactory(context.getConfiguration()).getCodec(file);
//return codec == null;
return true;//要求分片
}
/**
* Generate the list of files and make them into FileSplits.
*/
@Override
public List<InputSplit> getSplits(JobContext job) throws IOException {
long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));
long maxSize = getMaxSplitSize(job);
// generate splits
List<InputSplit> splits = new ArrayList<InputSplit>(); //用以存放生成的split的
for (FileStatus file: listStatus(job)) {//filestatues是文件对应的信息，具体看对应的类
Path path = file.getPath();
FileSystem fs = path.getFileSystem(job.getConfiguration());
long length = file.getLen(); //得到文本的长度
BlockLocation[] blkLocations = fs.getFileBlockLocations(file, 0, length); //取得文件所在块的位置
if ((length != 0) && isSplitable(job, path)) { //如果文件不为空，并且可以分片的话就进行下列操作,
long blockSize = file.getBlockSize();//
//long splitSize = computeSplitSize(blockSize, minSize, maxSize); //split的大小Math.max(minSize, Math.min(maxSize, blockSize));
//可以通过调整splitSize的大小来控制对应的文件块的大小，比如设置splitSize=100，那么就可以控制成每个split的大小
//但是问题是，我是要求按行进行处理的，虽然这样应该也可以按行进行切分了，不过却不能保证每个split对应的行数都是相等的
//一般情况是如果文件大于64M（32M）就会使用块大小来作为split
long splitSize = mySplitSize;
long bytesRemaining = length; //文本的长度
while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {//剩下的文本长度大于split大小的SPLIT_SLOP倍数
int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);//找到对应block块中对应的第0个字符开始，
splits.add(new FileSplit(path, length-bytesRemaining, splitSize,
blkLocations[blkIndex].getHosts()));
//这个是形成split的代码FileSplit(文件路径，0，split大小，host)
//原始函数为 FileSplit(Path file, long start, long length, String[] hosts) {
//但是应该可以通过重写FileSplit来实现对应的要求
bytesRemaining -= splitSize;
}
if (bytesRemaining != 0) {
splits.add(new FileSplit(path, length-bytesRemaining, bytesRemaining,
blkLocations[blkLocations.length-1].getHosts()));
}
} else if (length != 0) {
splits.add(new FileSplit(path, 0, length, blkLocations[0].getHosts()));
} else {
//Create empty hosts array for zero length files
splits.add(new FileSplit(path, 0, length, new String[0]));
}
}
LOG.debug("Total # of splits: " + splits.size());
return splits;
}
}

知识点

相关文章

最近更新

Hadoop 自定义InputFormat实现自定义Split

相关问答

hadoop自定义数据类型有哪些[2022-04-03]

hadoop的自定义数据类型有哪些[2022-06-18]

Hadoop 2中的自定义log4j appender(Custom log4j appender in Hadoop 2)[2022-02-23]

创建不带输入数据的自定义生成器Hadoop InputFormat(Creating a custom Generator Hadoop InputFormat without input data)[2021-11-15]

Python的Spark自定义Hadoop配置（PySpark）？(Custom Hadoop Configuration for Spark from Python (PySpark)?)[2022-11-09]

Hadoop MapReduce InputFormat已弃用？(Hadoop MapReduce InputFormat Deprecated?)[2022-03-14]

用于Excel文件的自定义InputFormat或InputReader（xls）(Custom InputFormat or InputReader for Excel files(xls))[2022-11-13]

在hadoop中，我只想在每个节点上执行自己的自定义程序(In hadoop, I just want to execute my own custom program on each node)[2024-02-07]

在Hadoop中实现自定义Writable？(Implementation of custom Writable in Hadoop?)[2021-12-02]

Hadoop自定义分区程序问题(Hadoop Custom Partitioner Issue)[2023-04-05]