Hadoop介绍

2019-03-28 13:38|来源: 网络

Hadoop是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.
Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算.

数据在hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果.


HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统.
大文件被分成默认64M一块的数据块分布存储在集群机器中.

如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中.


MapReduce:Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key--value的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出,保存在HDFS上.

相关问答

更多
  • 学校简介   沧州医学高等专科学校是一所以医药卫生教育为主的国办市属普通高等学校。办学五十多年来,经过几代人的艰苦奋斗、自强不息、求真务实、开拓创新,使学校具备了良好的办学条件,积淀了丰厚的文化底蕴,教学科研水平稳步提高,社会服务功能不断增强。建校以来,共培养了三万多名合格的卫生技术人才,为沧州地区乃至河北省的医疗、卫生、教育事业做出了积极贡献。   历史沿革 学校始建于1958年,校名为“津沧医学专科学校”;1963年更名为“河北省沧州卫生学校”;1994年被评为“国家级普通重点中专学校”,是当时全国医药 ...
  • java是执行文件,不是目录 java path默认是java_home/bin/目录 这个目录底下应该 java和javac等文件
  • bg4.png 具体如何配置,可以只参考一种,比如下面linux中Java jdk环境变量的含义linux(ubuntu)安装Java jdk环境变量设置及小程序测试Linux jdk配置及eclipse安装、SSH配置hadoop安装必备java的 jdk安装指导
  • 深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存(企业Hadoop应用核心产品) LS的Q
  • 如果你已经进入hadoop/bin目录下,应该是 ./hadoop fs -mkdir /input 如果你没有进入hadoop/bin目录,你应该打全路径或相对路径 假设你的hadoop安装在/home/hadoop下,你可以打 /home/hadoop/bin/hadoop fs -mkdir /input 一般情况下你都在/home/hadoop默认目录下,你可以打 bin/hadoop fs -mkdir /input
  • 顶顶顶~感谢楼主分享,下载看看
  • CDH版本衍化 hadoop是一个开源项目,所以很多公司在这个基础进行商业化,Cloudera对hadoop做了相应的改变。 Cloudera公司的发行版,我们将该版本称为CDH(Cloudera Distribution Hadoop)。截至目前为止,CDH共有5个版本,其中,前两个已经不再更新,最近的两个,分别是CDH4在Apache Hadoop 2.0.0版本基础上演化而来的),CDH5,它们每隔一段时间便会更新一次。 Cloudera以patch level划分小版本,比如patch level为 ...
  • 云技术新兴的概念太多,让我们没法适应,这里说一下什么是CDH CDH版本衍化 hadoop是一个开源项目,所以很多公司在这个基础进行商业化,Cloudera对hadoop做了相应的改变。 Cloudera公司的发行版,我们将该版本称为CDH(Cloudera Distribution Hadoop)。截至目前为止,CDH共有5个版本,其中,前两个已经不再更新,最近的两个,分别是CDH4在Apache Hadoop 2.0.0版本基础上演化而来的),CDH5,它们每隔一段时间便会更新一次。 Cloudera以 ...
  • 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Platform,简称“HDP”),对于国内而言,绝大多数选择CDH版本,CDH和Apache版本主要区别如下:   (1) CDH对Hadoop版本的划分非常清晰,只有两个系列的版本 ...