Hadoop Ubuntu集群安装

2019-03-28 13:40|来源: 网络

www.linuxidc.com @Ubuntu:~$ sudo apt-get install openjdk-6-jre openjdk-6-jdk

www.linuxidc.com @ubuntu:~$ java -version
java version “1.6.0_20″
OpenJDK Runtime Environment (IcedTea6 1.9.13) (6b20-1.9.13-0ubuntu1~10.04.1)
OpenJDK 64-Bit Server VM (build 19.0-b09, mixed mode)

master:NameNode,JobTracker
master203
slaves:DataNode,TaskTracker
node205,node206
www.linuxidc.com @ubuntu:~$ sudo addgroup Hadoop

www.linuxidc.com @ubuntu:~$ sudo adduser –ingroup hadoop hduser

用visudo将hduser添加到sudoers里面。

www.linuxidc.com @ubuntu:~$ su – hduser

hduser@ubuntu:~$ ssh-keygen -t rsa -P “”

hduser@ubuntu:~$ cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

hduser@ubuntu:~$ vi .ssh/config

Host master203
Port 50022
HostName 124.207.177.203
IdentityFile ~/.ssh/id_rsa

Host node205
Port 50022
HostName 124.207.177.205
IdentityFile ~/.ssh/id_rsa

Host node206
Port 50022
HostName 124.207.177.206
IdentityFile ~/.ssh/id_rsa

hduser@ubuntu:~$ chmod 600 .ssh/config

save your local machine’s host key fingerprint to the hduser user’s known_hosts file
hduser@ubuntu:~$ ssh master
The authenticity of host ‘[124.207.177.203]:50022 ([124.207.177.203]:50022)’ can’t be established.
RSA key fingerprint is 4e:ae:62:83:44:8f:1c:56:a1:80:33:82:68:82:aa:af.
Are you sure you want to continue connecting (yes/no)? yes

debug
ssh -vvv master

/etc/ssh/sshd_config, in particular the options PubkeyAuthentication (which should be set to yes) and AllowUsers (if this option is active, add the hduser user to it). If you made any changes to the SSH server configuration file, you can force a configuration reload with sudo /etc/init.d/ssh reload.

更改主机名:
hduser@ubuntu:~$ sudo vi /etc/hostname
改为
master203
再执行sudo hostname master203
使hostname生效。

修改hosts文件
hduser@master203:~$ sudo vi /etc/hosts
124.207.177.203 master203
124.207.177.205 node205
124.207.177.206 node206

hduser@master203:~$ scp -P 50022 .ssh/id_rsa hduser@124.207.177.205:~/.ssh

hduser@master203:~$ scp -P 50022 .ssh/id_rsa.pub hduser@124.207.177.205:~/.ssh

hduser@node205:~/.ssh$ cat id_rsa.pub >> authorized_keys

download Hadoop:

http://www.apache.org/dyn/closer.cgi/hadoop/core

http://labs.renren.com/apache-mirror/hadoop/core

hduser@master203:~$ wget http://labs.renren.com/apache-mirror/hadoop/core/hadoop-1.0.2/hadoop_1.0.2-1_x86_64.deb

hduser@master203:~$ sudo dpkg -i hadoop_1.0.2-1_x86_64.deb

hduser@master203:~$ sudo vi /etc/hadoop/masters
将localhost改为
master203
hduser@master203:~$ sudo vi /etc/hadoop/slaves
将localhost去掉,并改为
master203
node205
node206

hduser@master203:~$ ls /usr/lib/jvm/
java-1.6.0-openjdk java-6-openjdk
hduser@master203:~$ cat /etc/lsb-release
DISTRIB_ID=Ubuntu
DISTRIB_RELEASE=10.04
DISTRIB_CODENAME=lucid
DISTRIB_DESCRIPTION=”Ubuntu 10.04.3 LTS”
hduser@master203:~$ uname -a
Linux master203 2.6.32-33-server #70-Ubuntu SMP Thu Jul 7 22:28:30 UTC 2011 x86_64 GNU/Linux

配置
1.只读缺省配置文件:src/core/core-default.xml, src/hdfs/hdfs-default.xml src/mapred/mapred-default.xml.
2.站点特定文件:conf/core-site.xml, conf/hdfs-site.xml conf/mapred-site.xml
hduser@master203:~$ sudo vi /etc/hadoop/hadoop-env.sh

#export JAVA_HOME=/usr/lib/jvm/java-6-sun
根据版本修改
export JAVA_HOME=/usr/lib/jvm/java-6-openjdk
还可以配
Daemon Configure Options
——————————————-
NameNode HADOOP_NAMENODE_OPTS
DataNode HADOOP_DATANODE_OPTS
SecondaryNamenode HADOOP_SECONDARYNAMENODE_OPTS
JobTracker HADOOP_JOBTRACKER_OPTS
TaskTracker HADOOP_TASKTRACKER_OPTS

这两个可能会更改:
HADOOP_LOG_DIR,log目录
HADOOP_HEAPSIZE,daemon最大heap值,缺省是1000MB

添加文件core-site.xml
添加属性fs.default.name,值为NameNode 的URI,如hdfs://master203:9000
hduser@master203:~$ sudo vi /etc/hadoop/core-site.xml

 


fs.default.name
hdfs://master203:9000

hduser@master203:~$ sudo vi /etc/hadoop/hdfs-site.xml


dfs.replication
3
Default block replication.
value值根据实际情况填写。
hduser@master203:~$ sudo vi /etc/hadoop/mapred-site.xml


mapred.job.tracker
master203:9001

相关问答

更多
  • ZooKeeper是一个独立的组件,它可以和HDFS配合使用,但没有非得部署在一起的要求,只要网络通就可以。 另外,ZooKeeper建议最少安装在3个节点上,且数目为奇数。
  • 1、安装openssh,主要是为了主机间安全通信用的。除此之外,还要在此基础上加上无密码访问的设置。否则的话,主机之间交互时总是要求输入密码。这个无密码ssh访问的作法一搜有很多,就不多说了。 2、具体的不同点,主要就一点,主节点的openssh要持有所有子节点的无密码ssh登陆,只要交换下密钥就可以了。而子节点之间一般是无需无密码ssh登陆的,除非有特殊要求。 试下看吧。
  • 既然完成了安装,你要做的无非就两样: 1. 数据存在哪? 2. 怎么计算处理数据? 对于前者,你可以使用hbase或者hive作为数据存储,当然你也可以使用hadoop自己的分布式存储系统hdfs,不过hbase和hive可以提供给你数据库类的结构存储,更方便操作。 对于后者,你可以使用hadoop自己的计算框架Map-Reduce,这里无所谓数据存储在哪,你可以使用MR计算处理离线数据;如果使用hive,也可以使用hive的hql直接以sql方式进行统计计算离线数据线;也可以使用storm等处理实时数据流 ...
  • 如何删除hadoop?[2024-03-03]

    命令:hadoop fs -rmr /home/mm/lily2(要求是你把hadoop的bin加到PATH中,并开启hadoop) rm -rf /home/mm/lily2(这是删除linux文件系统的文件夹)
  • 必须在hadoop集群上,它的数据来源是HDFS,本质上是yarn上的一个计算框架,像MR一样。
  • 分为单机和集群,网上一堆,很多博客上面有,你可以看下,当然,我有个单机的,在fedora转过,要的私我
  • 如果您想进行分发安装,Cloudera可以使用Cloudera Manager轻松安装Ubuntu。 虽然它只官方支持12.04,但它也应该安装在13.x上 你可以在这里下载: Cloudera Manager Cloudera Manager supports the following operating systems: Red Hat-compatible systems Red Hat Enterprise Linux and CentOS 5.7, 64-bit ...
  • 你的错误非常直观。 您尝试过的选项1: 除非您已定义共享文件夹 ,否则无法从托管 VM的计算机复制到VM,因此/home/hduser/Downloads/hadoop2.7.1.tar.gz not found错误。 您尝试过的选项2: Cannot write to hadoop-2.7.1.tar.gz (Permission denied). 表示您没有相应的权限才能下载此文件。 您可以在选项2中使用sudo尝试相同的命令,以便修复此问题或从VM中下载hadoop tar文件并将其解压缩为第一个选项 ...
  • 如果您有Windows环境,我建议您使用VirtualBox和任何Linux作为Guest OS。 您可以在其上构建Hadoop集群。 有许多适用于Linux的安装程序,你不能错。 我们正是以这种方式将其用于开发目的。 Hadoop集群的性能不像功能那样受到关注。 它还允许您微调您的dev ops因为您可以撕开并重新启动新VM。 构建这种方式最简单的方法是: 安装VirtualBox 安装Vagrant 使用以下社区提供的框: http : //www.vagrantbox.es/ 引导您的VM以获取yum ...
  • 我想,Michael Noll的教程太旧了。 我找到了这个网站: https://www.digitalocean.com/community/tutorials/how-to-install-hadoop-on-ubuntu-13-10 我的大学实验室里有一个迷你集群(有5个奴隶和一个主人)。 Ubuntu 12.04和Hadoop 2.5.0就在那里。 此外,我在Ubuntu 12.04上的Hadoop 1.2.1笔记本电脑(2个奴隶和一个主人)中也有一个VM集群。 但我无法在Ubuntu 14.04中 ...