Hadoop实战之伪分布式模式

2019-03-28 14:05|来源: 网络

Hadoop可以在单节点上以所谓的伪分布式模式运行,此时每一个Hadoop守护进程都作为一个独立的Java进程运行,这种运行方式的配置和操作如下:

关于hadoop的安装和测试可以参考hadoop学习之安装与单机模式 见 http://www.linuxidc.com/Linux/2012-01/52765.htm

这里仍假定${HADOOP_HOME}为位置是/data/fkong/hadoop-0.20.203.0

1. 修改hadoop配置

1.1 编辑${HADOOP_HOME}/conf/core-site.xml文件,内容修改如下:

[plain] view plaincopyprint?
  1. <configuration>  
  2.   <property>  
  3.     <name>fs.default.name</name>  
  4.     <value>hdfs://localhost:9000</value>  
  5.   </property>  
  6. </configuration>  
1.2 编辑${HADOOP_HOME}/conf/hdfs-site.xml文件,内如修改如下:

[plain] view plaincopyprint?
  1. <configuration>  
  2.   <property>  
  3.     <name>dfs.replication</name>  
  4.     <value>1</value>  
  5.   </property>  
  6. </configuration>  
1.3 编辑${HADOOP_HOME}/conf/mapred-site.xml文件,内如修改如下:

[plain] view plaincopyprint?
  1. <configuration>  
  2.   <property>  
  3.     <name>mapred.job.tracker</name>  
  4.     <value>localhost:9001</value>  
  5.   </property>  
  6. </configuration>  
2. 设置linux上ssh是用户可以自动登录

[plain] view plaincopyprint?
  1. $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa  
  2. $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys   
3. 格式化一个新的分布式文件系统:

[plain] view plaincopyprint?
  1. $ bin/hadoop namenode -format  
4. 执行hadoop

4.1 启动hadoop后台daemon

[plain] view plaincopyprint?
  1. $ bin/start-all.sh  
启动后可以通过以下w网页方式查看NameNode和JobTracker状态

[plain] view plaincopyprint?
  1. NameNode - http://localhost:50070/  
  2. JobTracker - http://localhost:50030/  
4.2 复制文件到分布式文件系统上

[plain] view plaincopyprint?
  1. $ bin/hadoop fs -put conf input  
4.3 运行测试

[plain] view plaincopyprint?
  1. $ bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+'  
4.4 获取测试程序的执行结果

[plain] view plaincopyprint?
  1. $ bin/hadoop fs -cat output/*  
4.5 停止hadoop后台daemon
[plain] view plaincopyprint?
  1. $ bin/stop-all.sh  

相关问答

更多
  • 0.关闭防火墙 service iptables start;#立即开启防火墙,但是重启后失效。 service iptables stop;#立即关闭防火墙,但是重启后失效。 重启后生效 chkconfig iptables on;#开启防火墙,重启后生效 chkconfig iptables off;#关闭防火墙,重启后生效 1.配置主机名 !!!!!注意安装hadoop的集群主机名不能有下划线!!不然会找不到主机!无法启动! 配置主机名 $vi /etc/sysconfig/network $sour ...
  • 第一步: 安装JDK 因为 Hadoop 运行必须安装 JDK 环境,因此在安装好 Linux 后进入系统的第一步 便是安装 JDK ,安装过程和在 Windows 环境中的安装步骤很类似,首先去Oracle 官网 去下载安装包,然后直接进行解压。我自己解压在路径 /usr/jvm 下面,假如你的安装包现在已经下载在 jvm 文件夹下面,然后 按 Ctrl+Alt+t 进去命令行,然后输入 cd /usr/jvm 进入到jvm文件夹下面,然后再输入如下命令进行解压: sudo tar -zxvf jdk-7 ...
  • Hadoop 有两个主要版本,Hadoop 1.x.y 和 Hadoop 2.x.y 系列,比较老的教材上用的可能是 0.20 这样的版本。Hadoop 2.x 版本在不断更新,本教程均可适用 如果需安装 0.20,1.2.1这样的版本,本教程也可以作为参考,主要差别在于配置项,配置请参考官网教程或其他教程。
  • 可以,hadoop安装分为单机模式,伪分布式模式,完全分布式模式。你装成单机模式或者伪分布式模式就可以了。 单机模式:Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程
  • hadoop分为单机模式,伪分布式,和完全分布式。 你说的伪分布式是指:一个机器上,即当namenode,又当datanode,或者说即是jobtracker,又是tasktracker。没有所谓的在多台机器上进行真正的分布式计算,故称为"伪分布式"。
  • 在 /usr/local/hadoop/ 下面启动,找到是/opt/Hadoop/下面的hadoop安装包,是不是HADOOP_HOME环境变量配置的有问题。 可以到海牛部落交流,那里有好多学习hadoop的朋友
  • hadoop集群指的是一群机器在一起提供一个hadoop的集群的服务。 hadoop分布式指的是hadoop支持任务分布式运行,因为有hadoop集群提供服务,所以hadoop将任务分发到集群的多台机器运行,所以叫做分布式。 一个是服务器架构,一个是任务运行架构。
  • 请参阅上面的Lorand的评论。 远程调试仅适用于独立模式。 See Lorand's comment above. Remote debugging will only work in standalone mode.
  • 要知道您是以独立还是伪分布模式运行hadoop,请验证您的配置文件。 以下信息可能有帮助。 To know if you are running hadoop in Standalone or Pseudo distributed mode, verify your configuration files. Below information might help.
  • 修改/etc/hosts以包含主机名环回映射: 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 127.0.1.1 is-joshbloom-hadoop ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 您的问题是您的机器不知道如何解析主机名is-joshbloom-hadoop到特定 ...