Hadoop单机模式环境搭建关键步骤

2019-03-28 13:30|来源: 网络

Hadoop环境需要sshd服务一直开启,故,在服务器上需要按照ssh服务,以Ubuntu Linux为例,按照ssh服务如下:

sudo apt-get install ssh

sudo apt-get install rsync

编辑HADOOP_HOME/conf/hadoop-env.sh文件,将JAVA_HOME设置为Java安装路径。

Hadoop的集群分为三种模式:

单机模式
伪分布式模式
完全分布式模式
不管哪种模型,都需要系统能够免密码ssh设置:
$ssh localhost
看看是否需要登录本机需要密码,如果需要使用如下操作:
$ssh -keygen -t dsp -P '' -f ~/.ssh/id_dsa
$cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

执行:
格式化一个新的分布式文件系统
$bin/hadoop namenode -format
启动Hadoop守护进程:
$bin/start-all.sh

浏览NameNode和JobTracker的网络接口,默认地址分别为:
NameNode http://localhost:50070
JobTracker http://localhost:50030
将输入文件copy到分布式文件系统:
$bin/hadoop fs -put conf input
运行示例程序;
$bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
查看输出文件:
$bin/hadoop fs -get output output
$cat output/*
或者在分布式文件系统上查看输出文件:
$bin/hadoop fs -cat output/*

停止Hadoop守护进程:
$bin/stop-all.sh

完全分布式集群:
通常选择集群中的一台机器作为NameNode,另外一台不同的机器作为JobTracker,这些被称为Master,余下的机器即作为DataNode,又作为TaskTracker,这些被称为Slaves。
在conf/slaves文件中列出所有slaves的主机名称或者Ip地址,一行一个。

更具体的完全分布式环境搭建可以见经验总结文章: Hadoop环境搭建(http://www.linuxidc.com/Linux/2012-03/56692.htm)和 Hadoop搭建和Eclipse开发环境设置 (http://www.linuxidc.com/Linux/2012-01/52914.htm

相关问答

更多
  • 1.关闭hdfs权限:hdfs-site.xml中 dfs.permissions false 2.检查eclipse插件是否设置了hadoop安装目录:将与linux下安装的hadoop相同版本的hadoop解压到windows下一个文件夹,然后指定hadoop插件目录,插件目录在preferences的map/reduce的hadoop installation location 3.在windows的hosts文件中添加hadoop所有节点的ip和主机名 4.关闭linux系统防火墙 5.把hadoo ...
  • 你可以在Windows系统上,装linux的虚拟机 在linux虚拟机上装hadoop
  • 1、下载安装JDK,以及Eclipse 具体看此链接:http://blog.csdn.net/weixuehao/article/details/17715793 2、新建JAVA Project 3、去cloudera网站下载hadoop的CDH3u6版本。将起解压到win7的某个目录 4、选中OperateHDFS,右击,选择“property”,弹出右侧的窗口; 选择“Java Build Path” —— “Libraries” —— Add External Jars 5、到上面的画面后,下面就 ...
  • 你用0.21版本的吧? 这个不稳定,且不提供支持的,现在学的话找0.20版本的学吧。 HDFS not found可能是由于你的HADOOP_HOME没有设置, 执行如下命令后再hdfs namenode -format: export HADOOP_HOME="你的hadoop安装路径"
  • namenode节点配置 conf/core-site.xml: fs.default.name hdfs:// localhost:9000 hdfs测试环境配置 conf/hdfs-site.xml: 数据块不需要冗余 dfs.replication 1 job-tracker配置 conf/mapred-site.xml: mapred.job.tracker localhost:9001 免密码ssh登录配置 $ ssh localhost # 若不行, 则进行以下配置 $ ssh-keygen - ...
  • 你肯定可以把你的宿主机的ip固定下来 而且使用bridge 你的虚拟机也能设置成固定的ip
  • 当然可以了。hive只是一个数据仓库的工具。运行一些HQL语句。不一定非得分布式。
  • 单节点localhost. 否则就是各节点的hostname,另外要区分你用的是哪个版本的hadoop,最新版本不需要在配置文件里指定哪个是master,只需配置namenode的hostname即可
  • centOs6,redhat,Ubuntu都行,我个人感觉centOs比较好用,我自己也在用。
  • 我也曾有过你这个困惑。在linux里qt的开发环境有3种:嵌入式、qvfb和x11,编译qt源码可以得到这三种环境。编译qt源码有三个步骤:配置(configure)、编译(make)、安装(make install)。三种环境仅仅在配置时有区别,网上很容易搜到具体做法。