Hadoop 配置笔记

2019-03-28 13:14|来源: 网络

1. Hadoop默认的配置文件在:conf/core-site.xml,conf/hdfs-site.xml 和 conf/mapred-site.xml

2. 几个默认参数值:

Hadoop默认的临时文件夹由src/core/core-default.xml中的hadoop.tmp.dir设置,默认值为/tmp/hadoop-${user.name};

hdfs中namenode的namespace信息保存在${hadoop.tmp.dir}/dfs/name目录下,由src/hdfs/hdfs-default.xml中的dfs.name.dir指定;

hdfs中datanode的block文件保存在${hadoop.tmp.dir}/dfs/data目录下,由src/hdfs/hdfs-default.xml中的dfs.data.dir指定;

3. conf下的maters和slaves文件

从字面意思上来看,masters 是主要的,应该记录的是 namenode 的 IP 或者是域名。但是文件的名称确实有点误导人,它主要记录运行辅助 namenode 的所有机器。slaves 文件记录了运行 datanode 和 tasktracker 的所有机器。用户也可以改变  hadoop-env.sh  的 HADOOP_SLAVES 项的值,将 slaves 文件放在其他地方。这两个文件无需分发到各个工作节点,因为只有运行在 namenode 或 jobtracker 上的控制脚本能使用这些文件。不过,分发了也不会有什么影响。

相关问答

更多
  • 同样建议不要用cygwin,总会出现各种意想不到的错误。 非要在windows上做,就在虚拟机上做(vmware workstation),安装教程网上各种。
  • 谁还自己配环境啊,你用xampp不就行了
  • java是执行文件,不是目录 java path默认是java_home/bin/目录 这个目录底下应该 java和javac等文件
  • hadoop配置[2022-10-16]

    不是你的环境变量的问题。不知道楼主有没有看Hadoop官网上的介绍。Hadoop所使用的jdk需要修改 conf/hadoop-env.sh 文件,在其中设置 JAVA_HOME 环境变量: export JAVA_HOME="C:\Program Files\Java\jdk1.5.0_01” (因为路径中 Program Files 中间有空格,一定要用双引号将路径引起来) 这里必须是修改Hadoop的conf/hadoop-env.sh 文件,和机器的环境变量没有关系。 有中文文档的。在Hadoop目 ...
  • 现在hadoop1.0都出了 简单说一下吧 你的java jdk的环境变量没有设置吧? 最好按以下步骤再做一遍: 1 用root用户安装jdk1.6以上 2 用root用户 创建hadoop用户 3 在hadoop用户下安装hadoop(你上面说的1到4) 4 修改/home/hadoop/.bash_profile将JDK和hadoop的环境变量设置好 5 安装ssh(伪集群也需要ssh)
  • export PATH=$PATH:$HADOOPHOME/bin $HADOOPHOME就是你的hadoop安装目录。这个是只作用于一次session的。要是永久的话就把这句话加到/etc/profile目录下。
  • 我的eclipse是装在WINDOWS下的,HADOOP在CENTOS生产环境。 但原理是一样额 http://club.sm160.com/showtopic-937269.aspx HADOOP 版本是hadoop1.0.0(和你的hadoop1.0.4配置相同)
  • 您正在为要执行的操作设置错误的配置参数。 你想要mapred.tasktracker.map.tasks.maximum 。 您正在设置的是作业的地图任务数量...在大多数情况下,您永远不应该修改。 默认情况下,Hadoop会将mapred.map.tasks设置为块数,所以不要mapred.map.tasks 。 将其添加到mapred-site.xml : mapred.tasktracker.map.tasks.maximum ...
  • 这可能发生在作业仅检测到本地文件系统的情况下,它使用LocalFileSystem API与本地文件系统中的文件进行交互。 请参考以下链接, 使用MiniDFSCluster单元测试hadoop hdfs着作 这是我们在开发环境中开发的mapreduce / hdfs代码的单元测试选项之一。虽然在hadoop clsuter中部署相同的代码,但输入文件将在HDFS位置。 This probably happens in the scenario where the job only detects the ...
  • 目前尚不清楚您使用的是什么Python库,但假设您使用PySpark,您可以在客户端机器上复制或配置HADOOP_CONF_DIR ,并且可以与任何外部Hadoop系统进行通信。 至少,您需要配置core-site.xml以与HDFS和hive-site.xml进行通信以与Hive进行通信。 如果您使用的是PyHive库 ,则只需连接到user@hiveserver2:1000 It's not clear what Python library you are using, but assuming Py ...