知识点
相关文章
更多最近更新
更多Ubuntu 上 Hadoop 1.0.3 单节点 配置-运行 成功
2019-03-28 13:26|来源: 网络
由于项目的需要,需要对一个分布式文件系统进行深入的学习,在MooseFS(MFS)和Hadoop的HDFS进行了大概一周的文档阅读、比较和资料的查阅,还是决定了用Apache的Hadoop开源项目进行开发,功能更强大,面向对象语言的开发(Java)而且比较大的开源组织的支持,文档也比较齐全,虽然都是基于Google File System(GFS)的实现,但是HDFS还是保留了更多的GFS的特性。支持超大文件的存储,高容错性(比MFS)且提供高吞吐量的数据访问,对于项目的需求来说,已经足以。
经过1天的资料阅读、软件安装与配置,终于搞定了Linux Ubuntu下 Hadoop 1.0.3版本的单节点配置,而且配置工作量不是很大。网上的配置版本很多,而且没有针对1.X的配置说明(可能跟之前0.2.X的类似吧)。
这里把自己的配置过程和配置文件分享下。1. 安装Oracle VM VirtualBox虚拟机(虚拟机随意,物理机最好,虚拟机作为单节点跑起Hadoop还是比较慢的)并安装Ubuntu 11.10(Ubuntu版本也随意,不过建议版本不要太旧)。
2.安装Java JDK
我是用的是稳定的1.6版本,1.6.32。下载地址 http://www.oracle.com/technetwork/java/javase/downloads/jdk-6u32-downloads-1594644.html。下载jdk-6u32-linux-i586.bin版本。Linux下安装bin文件命令:
(1)移动到自己安装JDK的路径,我的路径是:/usr/lib/jvm/jdk6下,没有的文件夹自己创建;
(2)chmod +x jdk-6u32-linux-i586.bin
(3)./jdk-6u32-linux-i586.bin
安装完成然后配置环境变量。 使用vim或者gedit来编辑/etc/profile文件。在文件末尾添加:
export JAVA_HOME=/usr/lib/jvm/jdk6/jdk1.6.0_32
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
至此JDK安装完成。终端使用java -version查看版本是否匹配。注意Ubuntu自带的openjdk是不能正常运行Hadoop的(自己没有尝试,很多文档这么说),所以还是建议安装下JDK
3. 安装SSH
终端下使用下面的命令:
ssh-keygen -t rsa -P "" (生成SSH key)
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys (公布公钥。如果~下没有.ssh文件夹,首先手动先创建一个.ssh文件夹)
ssh localhost (测试是否成功)
(我的过程没问题,有的可能会遇到 connection refused错误。 查百度解决)
4. 禁用IPv6 (原因是Ubuntu上的IPv6可能会与0.0.0.0冲突,而0.0.0.0在Hadoop中又被广泛使用)
编辑/etc/sysctl.conf文件,在文件末尾添加:
#disable ipv6
net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
net.ipv6.conf.lo.disable_ipv6 = 1
完成并保存,测试是否禁用成功。 终端使用 cat /proc/sys/net/ipv6/conf/all/disable_ipv6 命令,如果是0则没有禁用,1则表示禁用成功
(这个是在别人那里看到的,不配置没试过,可能对于基本的运行,不用这样禁用ipv6)
相关问答
更多-
ubuntu下配置hadoop不能正常运行。。求帮忙[2023-01-29]
刚接触的话就换成root用户试试,原因是没有执行权限,或者将hadoop安装目录的所有权限赋予给当前用户 -
在日志中查看以下行: 2012-03-25 00:10:30,911 INFO org.apache.hadoop.mapred.TaskTracker: org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find taskTracker/jobcache/job_201203242348_0001/attempt_201203242348_0001_m_000002_0/output/file.out in any of th ...
-
Wordcount示例hadoop(Wordcount example hadoop)[2022-11-10]
这可能发生在作业仅检测到本地文件系统的情况下,它使用LocalFileSystem API与本地文件系统中的文件进行交互。 请参考以下链接, 使用MiniDFSCluster单元测试hadoop hdfs着作 这是我们在开发环境中开发的mapreduce / hdfs代码的单元测试选项之一。虽然在hadoop clsuter中部署相同的代码,但输入文件将在HDFS位置。 This probably happens in the scenario where the job only detects the ... -
罐子的路径有错误。 我纠正了它。 There was a mistake in the path for the jar. I corrected it.
-
在Windows 7上运行Hadoop(Running Hadoop On Windows 7)[2023-06-12]
看起来像unix和windows之间的回车差异导致问题。 尝试在shell脚本上运行dos2unix 转到hadoop bin目录并尝试: dos2unix.exe hadoop.sh 然后尝试hadoop命令。 Seems like carriage return difference between unix and windows is causing the problem . Try running dos2unix on the shell script Go to the hadoop bi ... -
以下是Hadoop和HBase版本之间的兼容性矩阵列表: 上图:S - 支持,X - 不支持,NT - 未测试 更多信息请访问: http : //hadoop.apache.org/releases.html Here is the list of compatibility matrix between Hadoop and HBase versions: Above: S - Supported, X - Not Supported, NT - Not Tested More Info availab ...
-
最后,我成功运行代码并更正错误。 该错误是由于在机器中本地运行mapreduce程序我将其更改为在纱线中运行并且代码适用于所有类型的数据 Finally i succeeded to run the code and correct the error. The error was due to running the mapreduce program locally in the machine i changed it to run in yarn and the code works fine fo ...
-
是的,他们都应该能够彼此沟通。 VM到VM和VM到主机。 据我所知,虚拟机通过VMware播放器创建的虚拟网络适配器连接到网络。 这允许他们像连接到本地网络的任何其他计算机一样发送和接收流量。 因此,连接所有这三个之间不应该有任何问题。 因此,Hadoop IP配置将是相同的,只需将它们视为本地网络上的计算机即可。 Yes, they should all be able to communicate with one another. VM to VM and VM to host. To my know ...
-
谢谢你的建议。 事实证明它是一个blooper,我只放了两个/而不是文件中给出的三个URI。 它现在有效! thanks for the suggestions. It turned out to be a blooper, I have put only two /'s instead of three as given in the document for the URI. It works now !
-
Protobuf RPC在Hadoop 2.2.0单节点服务器上不可用?(Protobuf RPC not available on Hadoop 2.2.0 single node server?)[2022-06-01]
好的,找到原因,我连接到纱线资源管理器的错误端口。 正确的配置是:yarn.resourcemanager.address = localhost:8032 Ok, found the reason, I connected to the wrong port for the yarn resourcemanager. The correct configuration is: yarn.resourcemanager.address=localhost:8032