知识点
相关文章
更多最近更新
更多Hadoop 0.20.2 集群配置
2019-03-28 14:19|来源: 网络
说明:本文档是个人研究配置Hadoop 集群过程后产生的,参考了别人的配置文档,同时结合自己实际的情况,解决遇到的问题后最终配置成功。
1准备机器 :没有多余机器,安装了vmware7.0 后模拟的 2 台系统,操作系统是 Ubuntu10.10
所有的系统必须有相同的用户和密码,这里两个系统都是用hadoop:hadoop 作用户名和密码
以下操作均是以hadoop 身份进行的。
2 根据机器 IP 地址更改 hosts 文件
说明:master 代表第一台机器,主节点( IP:202.112.1.50 ), slave 代表第二台机器,数据节点( IP:202.112.1.49 ),以下可能直接使用此名称。
Master上的 hosts 文件
127.0.0.1 hadoop1 localhost
202.112.1.50 hadoop1 hadoop1
202.112.1.49 hadoop2 hadoop2
Slave上的 hosts 文件
127.0.0.1 hadoop2 localhost
202.112.1.50 hadoop1 hadoop1
202.112.1.49 hadoop2 hadoop2
另外:需要将/etc/hostname文件内容更改为hadoop1或者hadoop2(不知道是否是必须,我这个该了的,OK)
(引用别人的:对于hadoop 来说,从 hdfs 来看,节点分为 namenode 和 datanode ,其中 namenode 只有一个, datanode 有多个;从 mapreduce 来看,节点分为 jobtracker 和 tasktracker ,其中 jobtracker 只有一个, tasktracker 有多个;)
3 安装 ssh (为什么要安装这个东西,我不知道,或者说可以去百度一下看看别人怎么说的,他们好像说集群中通信用 ssh ,谁在乎呢,安装吧)
Master和 Slave 机器上都要 ssh
命令: apt-get install ssh (没有多余配置了,哦,有一个需要输入Y 表示同意安装:::)
在master 机器上做以下操作
安装成功后执行以下命令:
[hadoop@hadoop1:~]$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
然后是
[hadoop@hadoop1:~]$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
在slave 机器上建立 .ssh 文件夹, master 上通过以上命令自己创建了一个, slave 就要自己动手了,毕竟是 slave 嘛。
[hadoop@hadoop2:~]$ mkdir .ssh
然后将master 上的 authorized_keys 拷贝到 slave 的 .ssh 文件夹下,可以通过以下命令:
[hadoop@hadoop1:~]$ scp ~/.ssh/authorized_keys hadoop2: /home/hadoop/.ssh/
测试一下:[hadoop@hadoop1:~] ssh hadoop2
提示是否连接,输入yes ,连接成功。以后就不需要输入 yes 了。只需要从 master 到 slave 的无密码连接,而不需要测试从 slave 到 master 的无密码连接;在 master 和 slave 机器上 .ssh 文件夹下的内容也是不完全一样的。
4安装 jdk
Ubuntu下执行 [hadoop@hadoop1:~] sudo apt-get instal sun-java6-jdk
Master和 Slave 机器都需要 jdk 环境。在 ubuntu 下 10.10 下是不需要再去设置 java_home 等环境变量的,安装完后直接输入 java -version 和 javac -version 测试一下, OK 。
至于其他Linux 环境,需要安装 jdk 和配置 jdk 环境变量的,请百度 /Google 吧,直到 java -version 返回正确结果为止。
5 下载 hadoop0.20.2
相关问答
更多-
在docker中搭建hadoop集群有什么好方法配置ip[2024-01-02]
Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭 建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后,开发了接近最小化的Hadoop镜像,... -
下载文件hadoop-0.20.2.tar.gz即可
-
hadoop-0.20.2,hadoop目录下面没有logs文件夹,不知道任务日志记录去了哪[2023-12-04]
你是安装的伪分布式模式还是集群模式? 安装完成后,启动namenode,再到hadoop-0.20.2目录下就能找到 Logs文件夹了。 -
hadoop安装问题!!![2022-02-26]
现在hadoop1.0都出了 简单说一下吧 你的java jdk的环境变量没有设置吧? 最好按以下步骤再做一遍: 1 用root用户安装jdk1.6以上 2 用root用户 创建hadoop用户 3 在hadoop用户下安装hadoop(你上面说的1到4) 4 修改/home/hadoop/.bash_profile将JDK和hadoop的环境变量设置好 5 安装ssh(伪集群也需要ssh) -
配置hadoop集群是怎么配置的[2023-12-15]
在过去,大数据处理主要是采用标准化的刀片式服务器和存储区域网络(SAN)来满足网格和处理密集型工作负载。然而随着数据量和用户数的大幅增长,基础设施的需求已经发生变化,硬件厂商必须建立创新体系,来满足大数据对包括存储刀片,SAS(串行连接SCSI)开关,外部SATA阵列和更大容量的机架单元的需求。即寻求一种新的方法来存储和处理复杂的数据,Hadoop正是基于这样的目的应运而生的。Hadoop的数据在集群上均衡分布,并通过复制副本来确保数据的可靠性和容错性。因为数据和对数据处理的操作都是分布在服务器上,处理指令 ... -
如果你输入的文件很小 - 你可以将它们加载到静态变量中并使用规则作为输入。 如果上述情况不是这样,我可以采用以下方法: a)使规则1和规则2的高复制因子接近您拥有的节点数量。 然后,您可以从HDFS规则= 1和规则-2读取输入中的每个记录相对高效 - 因为它将从本地数据节点顺序读取。 b)如果你可以考虑一些散列函数,当应用到规则和输入字符串时可以预测它们可以匹配的错误否定 - 那么你可以发出这个散列规则,输入记录并解决所有可能的匹配。 这与使用MR完成连接的方式非常相似 c)我会考虑一些其他的优化技术,比如 ...
-
如何从Apache Hadoop 1.2.1降级到0.20.2版本(How to downgrade from Apache Hadoop 1.2.1 to 0.20.2 version)[2022-04-20]
只需重复hadoop 1.2。* with hadoop 0.20所遵循的安装步骤,即下载zip,解压缩,编辑配置文件并正确设置局部变量。 如果您愿意,也可以保留旧安装,但最好使用所需的hadoop版本保持设置清洁和简单。 另一个替代方案是,使用预先配置的hadoop分布图像,而不是Cygwin,例如CDH 3. *可以是在Windows上使用虚拟机学习hadoop的好选择(你需要虚拟机或VMware s / w) Just repeat the installation steps you followe ... -
您不应该在自己的笔记本电脑上运行主节点,而是在ec2上运行数据节点。 这是因为那些ec2服务器无法通过ip“10.0.0.130”到达您的笔记本电脑,这始终由您的ISP提供: ping 10.0.0.130 PING 10.0.0.130 (10.0.0.130): 56 data bytes Request timeout for icmp_seq 0 Request timeout for icmp_seq 1 Request timeout for icmp_seq 2 Request timeout ...
-
2013-05-17 00:44:18,611 WARN plugin.PluginRepository (PluginManifestParser.java:getPluginFolder(123)) - Plugins: directory not found: plugins 。 你检查插件目录。 并在nutch-site.xml添加插件文件夹路径。 您必须在
标记中添加插件路径,如下所示: plugin.folders 要确认您在版本20.2中支持-D选项,但是需要您实现Tool接口以从命令行读取变量 Configuration conf = new Configuration(); //this is the issue // When implementing tool use this Configuration conf = this.getConf(); To confirm you -D option is supported in the version 20.2 however that r ...