首页 \ 教程 \ hadoop

知识点

hadoop

Hadoop权威指南学习（七）——其他

Hadoop权威指南学习（一）——关于Mapreduce

Hadoop权威指南学习（四）——MapReduce工作机制

Hadoop权威指南学习（三）——MapReduce应用开发

Hadoop权威指南学习（六）——MapReduce的特性

Hadoop权威指南学习（五）——MapReduce的类型和格式

Hadoop core之IO

Hadoop&Hbase 备份方案--NFS

Hadoop 0.20 程式设计 PDF & PPTX

Hadoop集群安装&Hbase实验环境搭建

Hadoop RPC机制&完整调用流程

Mapreduce 读取Hbase,写入hbase IO 不均衡问题

Hadoop权威指南（第2版）修订升级版高清中文PDF

Hadoop权威指南(中文版-带目录索引)PDF

Hadoop学习总结之二：HDFS读写过程解析

Hadoop权威指南学习（二）——HDFS & Hadoop IO

2019-03-28 14:20|来源: 网络

HDFS设计:

以流式数据访问模式来存储超大文件，“一次写入，多次读取”；

HDFS为高数据吞吐量应用优化的，低延迟的方位需求应选择HBase；

文件系统的元数据存储在namenode的内存中，所能存储的文件总数受限于内存容量；

HDFS的块（block）默认为64M（块大的目的为了最小化寻址开销，从磁盘传输时间可明显大于定位时间），以块存储而非文件可简化存储系统的设计

HDFS只是Hadoop文件系统的一个实现，在org.apache.hadoop包的fs以及hdfs子包中包含了多种其他文件系统

使用Java API操作Hadoop文件（见 http://www.linuxidc.com/Linux/2011-11/47051.htm）包括文件与目录的操作，创建、删除、读取、写入等。

相关阅读：

Hadoop权威指南学习（七）——其他 http://www.linuxidc.com/Linux/2011-11/47050.htm

Hadoop权威指南学习（六）——MapReduce的特性 http://www.linuxidc.com/Linux/2011-11/47049.htm

Hadoop权威指南学习（五）——MapReduce的类型和格式 http://www.linuxidc.com/Linux/2011-11/47048.htm

Hadoop权威指南学习（四）——MapReduce工作机制 http://www.linuxidc.com/Linux/2011-11/47047.htm

Hadoop权威指南学习（三）——MapReduce应用开发 http://www.linuxidc.com/Linux/2011-11/47046.htm

Hadoop权威指南学习（二）——HDFS & Hadoop IO http://www.linuxidc.com/Linux/2011-11/47045.htm

Hadoop权威指南学习（一）——关于Mapreduce http://www.linuxidc.com/Linux/2011-11/47044.htm

数据流:

1. 文件读取剖析

2. 文件写入剖析

Hadoop IO:

1. 数据完整性：对写入的所有数据计算校验和并在读取数据是验证校验和。（LocalFileSystem，RawLocalFileSystem，ChecksumFileSystem）

2.压缩：减少存储文件磁盘空间+加速数据在网络和磁盘上的传输。

Hadoop中CompressionCodec接口的实现代表一个codec(压缩-解压缩算法)，如DEFKATE，Gzip，bzip2（支持切分）以及LZO，需要在时间和空间取平衡。而压缩算法是否支持切分对于mapreduce处理非常重要，如1GB的压缩文件，分16个数据块存放，若压缩算法不支持切分，则map任务独立于其他任务进行数据读取是行不通的。[CompressionCodecFactory,，CodecPool]

conf.setBoolean("mapred.output.compress", true);
conf.setCalss("mapred.output.compress.codec",GzipCodec.class, CompressionCodec.class);
// mapred.output.compress.type=BLOCK(默认为RECORD)

3. 序列化：将结构化对象转化为字节流，以便在网络上传输或写道磁盘永久存储。

Hadoop中，系统结点上进行间的通信通过RPC实现的，其将消息序列化成二进制流后发送给远程结点，远程节点将二进制流反序列化成员是消息。

Writable接口定义了write(DataOutput)和readFields(DataInput)两个方法；WritableComparable接口继承至Writable和Comparable接口，MapReduce中的key均需要实现该接口；

Writable类：org.apache.hadoop.io中，包括Java基本类型的Writable封装器（如Text，NullWritable，ObjectWritable）以及集合类（ArrayWritable，TwoDArrayWritable，MapWritable，SortedMapWritable）

Apache Avro是独立于变成语言的数据序列化系统，旨在解决Writable类型的不足：缺乏语言的可以执行。

4. 基于文件的数据结构：SequenceFile + MapFile（排好序的SequenceFile，已加入用于搜索间的索引）

知识点

相关文章

最近更新

Hadoop权威指南学习（二）——HDFS & Hadoop IO

相关问答

想学hadoop,hadoop权威指南和大数据时代两本书哪个更好?[2022-01-23]

hadoop hdfs的问题[2021-10-30]

Hadoop MapReduce作业权限被拒绝(Hadoop MapReduce Job Permission Denied)[2022-02-27]

hadoop上的FileNotFoundException(FileNotFoundException on hadoop)[2022-04-04]

如何通过java中的hdfs协议访问hadoop？(How can I access hadoop via the hdfs protocol from java?)[2022-04-18]

Hadoop：NoSuchMethodException(Hadoop : NoSuchMethodException)[2022-05-08]

无法从hadoop hdfs检索文件(Can't retrieve files from hadoop hdfs)[2023-01-04]

Hadoop - LeaseExpiredException(Hadoop - LeaseExpiredException)[2023-06-07]

为什么org.apache.hadoop.io.Writable无法强制转换为org.apache.hadoop.io.IntWritable？(Why org.apache.hadoop.io.Writable cannot be cast to org.apache.hadoop.io.IntWritable?)[2021-07-06]

使用Hadoop进行索引(Indexing with Hadoop)[2023-06-05]

知识点

相关文章

最近更新

Hadoop权威指南学习（二）——HDFS & Hadoop IO

相关问答

想学hadoop,hadoop权威指南 和 大数据时代 两本书哪个更好?[2022-01-23]

hadoop hdfs的问题[2021-10-30]

Hadoop MapReduce作业权限被拒绝(Hadoop MapReduce Job Permission Denied)[2022-02-27]

hadoop上的FileNotFoundException(FileNotFoundException on hadoop)[2022-04-04]

如何通过java中的hdfs协议访问hadoop？(How can I access hadoop via the hdfs protocol from java?)[2022-04-18]

Hadoop：NoSuchMethodException(Hadoop : NoSuchMethodException)[2022-05-08]

无法从hadoop hdfs检索文件(Can't retrieve files from hadoop hdfs)[2023-01-04]

Hadoop - LeaseExpiredException(Hadoop - LeaseExpiredException)[2023-06-07]

为什么org.apache.hadoop.io.Writable无法强制转换为org.apache.hadoop.io.IntWritable？(Why org.apache.hadoop.io.Writable cannot be cast to org.apache.hadoop.io.IntWritable?)[2021-07-06]

使用Hadoop进行索引(Indexing with Hadoop)[2023-06-05]

想学hadoop,hadoop权威指南和大数据时代两本书哪个更好?[2022-01-23]