Hadoop集群目录配置与注意事项

2019-03-28 13:20|来源: 网络

一、目录配置参数说明

参数 描述 备注 位置
Hadoop.tmp.dir 临时目录,其它临时目录的父目录。 本地或hdfs
dfs.name.dir nameNode的元数据(fsimage)存储目录。 以逗号隔开,hdfs会把数据冗余复制到这些目录,一般这些目录是不同的块设备,不存在的目录会被忽略掉。 namenode本地
dfs.name.edits.dir nameNode的事务日志(edits)存储目录。
fs.checkpoint.dir secondaryNamenode的元数据(fsimage)存储目录。 以逗号隔开,hdfs会把数据冗余复制到这些目录,一般这些目录是不同的块设备,不存在的目录会被忽略掉。 secondarynamenode本地
fs.checkpoint.edits.dir secondaryNamenode的事务日志(edits)存储目录。
dfs.data.dir dataNode的数据目录 以逗号隔开,hdfs会把数据存储在这些目录下,一般这些目录是不同的块设备,不存在的目录会被忽略掉。 datanode本地
mapred.local.dir MapReduce产生的中间数据存放目录。Jobtracker存放job中间数据,tasktracker存放task中间数据 以逗号隔开,hdfs会把数据存储在这些目录下,一般这些目录是不同的块设备,不存在的目录会被忽略掉。 jobtracker/tasktracker本地
mapred.temp.dir mapreduce临时共享文件存放目录,用于各个task用到的共享文件   hdfs
mapred.system.dir mapreduce执行时的共享目录,用于存储job执行时的一些控制信息   hdfs
mapred.job.tracker
.persist.jobstatus.dir
job状态信息持久存放目录 与mapred.job.tracker.persist.jobstatus.hours,mapred.job.tracker.persist.jobstatus.active两个参数配合使用 jobtracker本地或hdfs
mapreduce.jobtracker
.staging.root.dir
每个正在运行的作业文件存放区(job.jar ob.split job.splitmetainfo job.xml libjars等)   hdfs

 

二、注意事项:

1、与mapred.local.dir相关的参数
* mapred.local.dir.minspacestart:在mapreduce运行任务之前,检查temporary 目录下是否还有该选项配置的空闲空间,如果少于该配置,则map或reduce task不会分配到该TaskTracker上,以避免由于磁盘空间不足导致的task失败。默认设置为0,disable该功能
* mapred.local.dir.minspacekill:如果该磁盘卷下剩余的磁盘空间不足该配置,则将正在运行的Task 杀掉。默认为0,diabled该功能
另,如果服务器有多个块设备最好将mapred.local.dir设置成多个目录,每个目录对应一个块设备,这样多个task在同一个TaskTracker上运行的时候,就可以分别写不同的磁盘写入点,以增大作业运行的磁盘吞吐率。
2、与dfs.data.dir相关的参数
* dfs.datanode.du.reserved:dfs写文件块时,如果当前datanode上的dfs.data.dir下剩余磁盘空间不足该选项配置的空间大小,就不往该datanode继续写数据块
* dfs.datanode.du.pct:同dfs.datanode.du.reserved,不过配置值为一个百分比
最好预留些空间,避免写文件失败。

3、建议配额
mapred.local.dir.minspacestart = slots * dfs.block.size
mapred.local.dir.minspacekill = slots/2 * dfs.block.size
dfs.datanode.du.reserved = dfs.block.size * dfs.replication #最少留这么多吧,建议留大些。

相关问答

更多
  • 电梯安全乘坐须知 为保证乘客的人身安全和电梯设备的正常,请遵照以下规定正确使用电梯。 一、禁止携带易燃、易爆或带腐蚀性的危险品乘坐电梯。 二、乘坐电梯时请勿在轿厢内左右摇晃。 三、禁止在轿厢内吸烟以免引起火灾。
  • Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭 建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后,开发了接近最小化的Hadoop镜像,...
  • 1.Do you want to use a different name? 选no 2.Create new privileged user account 'cyg_server'? 选no 3.无法启动sshd服务时,出现如下异常:Privilege separation user sshd does not exist 修改/etc/passwd文件,在其中加入 sshd:x:109:65534::/var/run/sshd:/usr/sbin/nologin
  • 在过去,大数据处理主要是采用标准化的刀片式服务器和存储区域网络(SAN)来满足网格和处理密集型工作负载。然而随着数据量和用户数的大幅增长,基础设施的需求已经发生变化,硬件厂商必须建立创新体系,来满足大数据对包括存储刀片,SAS(串行连接SCSI)开关,外部SATA阵列和更大容量的机架单元的需求。即寻求一种新的方法来存储和处理复杂的数据,Hadoop正是基于这样的目的应运而生的。Hadoop的数据在集群上均衡分布,并通过复制副本来确保数据的可靠性和容错性。因为数据和对数据处理的操作都是分布在服务器上,处理指令 ...
  • 对于每一个Linux学习者来说,了解Linux文件系统的目录结构,是学好Linux的至关重要的一步.,深入了解linux文件目录结构的标准和每个目录的详细功能,对于我们用好linux系统只管重要,下面我们就开始了解一下linux目录结构的相关知识。 当在使用Linux的时候,如果您通过ls –l / 就会发现,在/下包涵很多的目录,比如etc、usr、var、bin ... ... 等目录,而在这些目录中,我们进去看看,发现也有很多的目录或文件。文件系统在Linux下看上去就象树形结构,所以我们可以把文件系 ...
  • 随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单。 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多)。 在这个博客帖子中,你将会学到一些工作负载评估的原则和它在硬件选择中起着至关重要的作用。在这个过程中,你也将学到Hadoop管理员应该考虑到各种因素。 结合 ...
  • 说白了就是权限问题 举个栗子,装到root下(明显是root干的吧),所有目录和子目录的所属用户、所属组一定是root、root吧,那么其他用户就无法访问里面的文件了(比如start-all.sh),后果可想而知。
  • 1、网站建设时域名的选择 好的域名及用户好记又利于排名,域名尽量要相关,比如我是做网站优化的,我的域名中就应该包括seo这个词,用户好记,也对排名很有利。域名越短越好,便于用户记忆,如果有老域名就不用新域名,老域名更有利于网站排名。 2、网站建设服务器选择 网站建设对服务器的选择,尽量选择稳定的服务器,速度快的服务器,如果服务器两天三天打不开。及伤害百度蜘蛛的心情有伤害用户的体验,说明公司很不正规,对用户的伤害是巨大的。 3、flash大量运用 笔者遇到过一个让笔者做网站优化的单子,全站全是flash没有一 ...
  • 没有公式。 这取决于你有多少核心和多少内存。 映射器的数量+减速器的数量一般不应超过核心数量。 请记住,该计算机还运行任务跟踪器和数据节点守护程序。 一般的建议是更多地图绘制器而不是减速器。 如果我是你,我会用合理数量的数据运行我的一个典型工作来试试。 There is no formula. It depends on how many cores and how much memory do you have. The number of mapper + number of reducer shoul ...