Hadoop集群中添加硬盘

2019-03-28 13:17|来源: 网络

Hadoop工作节点扩展硬盘空间

接到任务,Hadoop集群中硬盘空间不够用,要求加一台机器到Hadoop集群,并且每台机器在原有基础上加一块2T硬盘,老板给力啊,哈哈。

这些我把完成这项任务的步骤和我遇到的问题和解决方法总结一下,分享给大家。

1.    首先,介绍一下用到的基本命令和配置,如果本文的网友时间比较紧,可以直接跳过部分内容,直接看“2.  如何加载新硬盘”部分。

(1)命令fdisk

语法:

fdisk [-b sectorsize] device

fdisk -l [-u] [device...]

fdisk -s partition...

fdisk –v

说明:

-b <sectorsize>  指定每个分区的大小。也可以执行fdisk device(如:fdisk /dev/sdb)后,在系统提示时指定。

-l  列出指定的外围设备的分区表状况。如果仅执行 fdisk -l,系统会列出已知的分区。

-u  搭配"-l"参数列表,会用分区数目取代柱面数目,来表示每个分区的起始地址。

-s <parttion>      将指定的分区的大小输出到标准输出上,单位为区块。

-v  显示fdisk的版本信息。

(2)命令mkfs

语法:mkfs [-V][-t fstype] [fs-options] filesys

说明:

-V  显示简要的使用方法。

-t <fstype>  指定要建立何种文件系统,如:ext3, ext4。

fs  指定建立文件系统时的参数。

-v  显示版本信息与详细的使用方法。

(3)命令mount

语法:

mount [-afFnrsvw] [-t vfstype] [-Llabel]  [-o options] device dir

mount [-lhv]

说明:

-a  加载文件/etc/fstab中设置的所有设备。

-f    不实际加载设备。可与-v等参数同时使用以查看mount的执行过程。

-F  需与-a参数同时使用。所有在/etc/fstab中设置的设备会被同时加载,可加快执行速度。

-t vfstype  指定加载的文件系统类型,如:ext3,ext4。

-L label      给挂载点指定一个标签名称。

-l    显示分区的label。

-h  显示帮助信息。

-v  显示mount的版本信息。

device 要挂载的分区或文件。如果device是一个文件,挂载时须加上-o loop参数。

dir  分区的挂载点。

(4)fstab配置说明

/etc/fstab 中一共有6列:

file system:指定要挂载的文件系统的设备名称(如:/dev/sdb)。也可以采用UUID,UUID可以通过使用blkid命令来查看(如:blkid  /dev/sdb)指定设备的UUID号。

mount point:挂载点。就是自己手动创建一个目录,然后把分区挂载到这个目录下。

type:用来指定文件系统的类型。如:ext3, ext4, ntfs等。

option dump:0表示不备份;1表示要将整个<file system>中的内容备份。此处建议设置为0。

pass:用来指定fsck如何来检查硬盘。0表示不检查;挂载点为分区/(根分区)必须设置为1,其他的挂载点不能设置为1;如果有挂载ass设置成大于1的值,则在检查完根分区后,然后按pass的值从小到大依次检查,相同数值的同时检查。如:/home 和 /boot 的pass 设置成2,/devdata的pass 设置成3,则系统在检查完根分区,接着同时检查/boot和/home,再检查/devdata。

相关问答

更多
  • Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭 建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后,开发了接近最小化的Hadoop镜像,...
  • 1:添加节点 A:新节点中添加账户,设置无密码登陆 B:Name节点中设置到新节点的无密码登陆 C:在Name节点slaves文件中添加新节点 D:在所有节点/etc/hosts文件中增加新节点(所有节点保持一致) E:在新节点中执行 ./bin/hadoop-daemon.sh star...
  • 日志文件通常在$HADOOP_HOME/logs , $HADOOP_HOME是你的hadoop安装目录。 您可以查看这两个日志文件: 您的namenode运行的节点中的hadoop-USERNAME-namenode-HOSTNAME.log hadoop-USERNAME-datanode-HOSTNAME.log ,它位于您启动新添加的datanode的节点中。 USERNAME和HOSTNAME是用于运行hadoop的用户名,以及节点的主机名。 The log files are usually i ...
  • 命令行 hadoop dfsadmin -report 将为您提供有关它们的基本统计数据的数据节点列表。 如果需要,可以通过编程方式进行相对简单的解析。 要获取任务跟踪器列表,我建议您在JobTracker上打开Web UI(端口50030)。 据我记得,有任务跟踪器列表。 The command line hadoop dfsadmin -report will give you list of datanodes with basic statisics about them. It can be re ...
  • fs.defaultFS定义的端口用于文件系统元数据操作。 您无法使用它来访问Web UI。 8042用于NodeManager Web UI, 8032用于ResourceManager IPC。 参考 hdfs-default.xml - 用于HDFS相关端口 yarn-default.xml - 用于YARN相关端口 mapred-default.xml - 用于JHS相关端口。 The port defined in fs.defaultFS is for file system metadata ...
  • 这些位与您注意到的相同。 不同之处在于默认运行的服务和Ambari组件集(在Spark上你将有额外的spark thrift,livy,jupyter)和这些服务的配置集。 因此,虽然技术上可以在hadoop集群上的纱线上运行火花作业,但不推荐使用,但某些配置可能未设置为最佳值。 反过来会更可靠 - 创建火花集群并在其上运行hadoop作业。 Maxim(HDInsight Spark PM) The bits are the same as you noticed. The difference is s ...
  • 你在找什么叫做Hadoop streaming 。 您可以查看官方文档Hadoop Streaming以了解更多信息,或查看编写Python中的Hadoop MapReduce程序 (而不是python,放入您的bash脚本)以了解如何使用它。 What you're looking for is called Hadoop streaming. You can look at the official documentation Hadoop Streaming to find out more or l ...
  • 此博客文章可能会有所帮助: http://western-skies.blogspot.com/2010/11/fix-for-exceeded-maxfaileduniquefetches.html 简而言之,即使您在配置文件中指定IP地址,Hadoop也会执行反向主机名查找。 在您的环境中,为了使Hadoop正常工作,SSP-SANDBOX-1.mysite.com必须解析为该机器的IP地址,并且该IP地址的反向查找必须解析为SSP-SANDBOX-1.mysite .COM。 因此,您需要与管理这些计 ...
  • dfs.name.dir file:///home/hadoop/hadoopdata/hdfs/namenode, file:///mnt/hadoop/hadoopdata/hdfs/namenode 这记录为: 确定DFS名称节点应存储名称表(fsimage)的本地文件系统的位置。 如果这是逗号分隔的目录列表,则为了冗余,将名称表复制到所有目录中。 你确定需要这个吗? 您是否希望在两个位 ...
  • 看看cloudera的HOOP ...提供对所有HDFS操作的访问,包括通过HTTP和HTTPS进行读/写。 have a look at cloudera's HOOP...provides access to all HDFS operations including read/write over HTTP and HTTPS.