Hadoop配置多个硬盘

2019-03-28 13:48|来源: 网络

Hadoop的文档里明确提出了不需要使用RAID(见http://wiki.apache.org/hadoop/DiskSetup)。hadoop本身的冗余机制使得RAID的冗余机制变得多余了。

并且根据一篇文章《why not use RAID?》的描述:在Yahoo Hadoop Cluster的Benchmark中,测试Gridmix显示使用JBOD相比RAID能提高写性能10%以上。

http://wiki.apache.org/hadoop/FAQ#How_do_I_set_up_a_hadoop_node_to_use_multiple_volumes.3F

修改hdfs-site.xml的dfs.data.dir
<property>
  <name>dfs.data.dir</name>
  <value>/data0,/data1</value>
</property>

更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

相关问答

更多
  • 同样建议不要用cygwin,总会出现各种意想不到的错误。 非要在windows上做,就在虚拟机上做(vmware workstation),安装教程网上各种。
  • hadoop配置[2022-10-16]

    不是你的环境变量的问题。不知道楼主有没有看Hadoop官网上的介绍。Hadoop所使用的jdk需要修改 conf/hadoop-env.sh 文件,在其中设置 JAVA_HOME 环境变量: export JAVA_HOME="C:\Program Files\Java\jdk1.5.0_01” (因为路径中 Program Files 中间有空格,一定要用双引号将路径引起来) 这里必须是修改Hadoop的conf/hadoop-env.sh 文件,和机器的环境变量没有关系。 有中文文档的。在Hadoop目 ...
  • 你说的是minisas口,一个口能接4块硬盘 普通的sas口和SATA口一样 只能一对一的接设备 minisas口还分内外置的。。。比如P410就是2个内置,可以接8个设备
  • 这个参数是本地生效的,就是说配置的参数仅在本节点生效。你datanode1可以配置3个路径(分别是3块盘下的),datanode2可以配置10个路径。 如datanode1上配置 dfs.data.dir /home/u/hdfs/data1,/home/u/hdfs/data2,/home/u/hdfs/data3 datanode2上配置 dfs.data.dir /data0,/data1,/data2,/data3,/data4,/data5,/data6,/data7,/data8,/data9
  • [postbg]bg4.png[/postbg]可以手工scp:scp把你安装的文件、目录,包括环境变量,比如profile。都需要复制过去。记得profile复制过去的时候,使用source命令,生效一下。例如: scp /usr/hadoop hadoop1: /usr/hadoop scp /etc/profile hadoop1:/etc/profile可以使用集群管理工具pupet,或则ambari,ambari可以下面的内容http://www.aboutyun.com/thread-7503- ...
  • 刚接触的话就换成root用户试试,原因是没有执行权限,或者将hadoop安装目录的所有权限赋予给当前用户
  • 您正在为要执行的操作设置错误的配置参数。 你想要mapred.tasktracker.map.tasks.maximum 。 您正在设置的是作业的地图任务数量...在大多数情况下,您永远不应该修改。 默认情况下,Hadoop会将mapred.map.tasks设置为块数,所以不要mapred.map.tasks 。 将其添加到mapred-site.xml : mapred.tasktracker.map.tasks.maximum ...
  • dfs.name.dir file:///home/hadoop/hadoopdata/hdfs/namenode, file:///mnt/hadoop/hadoopdata/hdfs/namenode 这记录为: 确定DFS名称节点应存储名称表(fsimage)的本地文件系统的位置。 如果这是逗号分隔的目录列表,则为了冗余,将名称表复制到所有目录中。 你确定需要这个吗? 您是否希望在两个位 ...
  • 对于hdfs-site.xml http://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml 像这样你可以找到其他文件 您可以使用以下格式 dfs.replication 1 For hdfs-site.xml http://hadoop.apach ...
  • 目前尚不清楚您使用的是什么Python库,但假设您使用PySpark,您可以在客户端机器上复制或配置HADOOP_CONF_DIR ,并且可以与任何外部Hadoop系统进行通信。 至少,您需要配置core-site.xml以与HDFS和hive-site.xml进行通信以与Hive进行通信。 如果您使用的是PyHive库 ,则只需连接到user@hiveserver2:1000 It's not clear what Python library you are using, but assuming Py ...