Hadoop2安装——伪分布式模式

2019-03-28 13:19|来源: 网络

Hadoop2安装——单机模式 http://www.linuxidc.com/Linux/2012-12/75267.htm

首先需要安装ssh  安装略

一、免密码ssh设置

ssh-keygen -t rsa

一直按<Enter> 由于不设置密码,所以就一直回车就行。

测试:

ssh localhost

其实是否必须使用ssh密码设置?我也不太清楚,很多帖子都需要这步,但官方网上没有这步。如果你有兴趣可以不操着这步试试,可能伪分布模式不需要ssh密码验证。呵呵我也是菜鸟,也不太清楚。但ssh一定是要安的。

二、修改配置文件

修改的文件都在/usr/local/hadoop-2.0.2-alpha/etc/hadoop下:

core-site.xml、hdfs-site.xml、yarn-site.xml 、mapred-site.xml. 四个文件

文件说明(略)

配置文件的添加和修改都在<configuration></configuration> 中

1、core-site.xml

<property>
  <name>fs.defaultFS</name>
  <value>hdfs://127.0.0.1:9000</value>
</property>

添加hdfs的指定URL路径,由于是伪分布模式,所以配置的是本机IP ,可为真实Ip、localhost。

官网上还提到io.file.buffer.size配置,由于默认的比较小只有4096,所以可以安装自己的需求写该131072(官方提供)。由于我这里只是做测试,配置越简单越好。呵呵。

2、hdfs-site.xml

主要是对namenode 和 datanode 存储路径的设置。其实默认是存储在file://${hadoop.tmp.dir}/dfs/name和data 下的。所以这里也不需配置的。但默认的师临时文件,重启就没有了,所以我这里还是设置了专门的路径保存。

3、mapred-site.xml

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

好像hadoop2有了yarn所以原来的mapred配置都转向yarn-site.xml文件中了,这里也就指定yarn。同时这里也可以配置一些mapreduce.map.java.opts、mapreduce.reduce.java.opts等很多,当然我这里还是使用默认的。

4、yarn-site.xml 

为了简单,快速做测试,我还是使用默认的。

相关问答

更多
  • 先回答你标题的提问:hadoop完全分布式:3个及以上的实体机或者虚拟机组件的机群。hadoop伪分布式:一个节点看了以上两点相信你已经明白了,“用vm多装几个unbuntu配置完全分布式,然后做实验”这是完全可行的。实际上我们通常也是这么做的,当然可能要求你的电脑cpu和内存足够支撑你这一计划。一点建议:如果你要开发基于Hadoop的分布式程序,伪分布式足够你实验了。如果你要做很多其他事情,比如玩玩cm,玩玩oozie,玩玩hbase,建议装多个虚拟机。
  • 先回答你标题的提问:hadoop完全分布式:3个及以上的实体机或者虚拟机组件的机群。hadoop伪分布式:一个节点看了以上两点相信你已经明白了,“用vm多装几个unbuntu配置完全分布式,然后做实验”这是完全可行的。实际上我们通常也是这么做的,当然可能要求你的电脑cpu和内存足够支撑你这一计划。一点建议:如果你要开发基于Hadoop的分布式程序,伪分布式足够你实验了。如果你要做很多其他事情,比如玩玩cm,玩玩oozie,玩玩hbase,建议装多个虚拟机。
  • 启动hdfs,mr和yarn服务看是否能够正常启动,然后用hadoop fs -ls /是否能够正常执行
  • 启动hdfs,mr和yarn服务看是否能够正常启动,然后用hadoop fs -ls /是否能够正常执行
  • 可以,hadoop安装分为单机模式,伪分布式模式,完全分布式模式。你装成单机模式或者伪分布式模式就可以了。 单机模式:Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程
  • 在 /usr/local/hadoop/ 下面启动,找到是/opt/Hadoop/下面的hadoop安装包,是不是HADOOP_HOME环境变量配置的有问题。 可以到海牛部落交流,那里有好多学习hadoop的朋友
  • 你可以输入JPS查看一下进程 一般你的master上是namenode secondarynamenode 和jobtracker三个进程 你的slaves上 有各自的datanode 和tasktracker两个进程 你看看是不是有各自进程都启动起来了 启动起来了就是分布式 如果只有一台机子有进程 那你就重新把那些配置文件再设置一下
  • 要知道您是以独立还是伪分布模式运行hadoop,请验证您的配置文件。 以下信息可能有帮助。 To know if you are running hadoop in Standalone or Pseudo distributed mode, verify your configuration files. Below information might help.
  • 修改/etc/hosts以包含主机名环回映射: 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 127.0.1.1 is-joshbloom-hadoop ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 您的问题是您的机器不知道如何解析主机名is-joshbloom-hadoop到特定 ...
  • 添加专用的Hadoop系统用户 我们将使用专用的Hadoop用户帐户来运行Hadoop。 虽然这不是必需的,但建议使用它,因为它有助于将Hadoop安装与在同一台计算机上运行的其他软件应用程序和用户帐户分开(请考虑:安全性,权限,备份等)。 #addgroup hadoop #adduser --ingroup hadoop hadoop1 #adduser --ingroup hadoop hadoop2 这会将用户hduser和组hadoop添加到本地计算机。 更改hadoop安装目录的权限 chow ...