hadoop2.2生态系统快速安装脚本 - 三劫散仙

2019-03-14 22:53|来源: 网路

对于使用hadoop进行开发的朋友们,可能要自己搭建一套hadoop的运行环境,如果不是经常变动的还好,如果,经常搭建而且还是多台机器,那么我们一个个的安装,就显得有点捉襟见肘了,这也是这个脚本诞生的目的,主要帮助我们在快速搭建hadoop集群,以及安装底层的配置依赖环境如JDK,Maven,Ant等,在安装hadoop前,还有一些关于linux基础的工作需要做,包括SSH无密码登陆和批量用户创建,不过,别担心,散仙已经写好了,大家直接用就OK, 需要的朋友,请点击此处
如果ssh认证搞定和hadoop的用户创建完毕后,我们就可以,执行散仙的脚本进行安装了

说明如下:

脚本开发者:三劫散仙
技术交流群:376932160

本脚本的主要作用: 给hadoop的快速大规模的集群分发安装提供了准备,能够很快的完成部分基础设施工作,
在这上面我们可以直接配置hadoop,hbase等,然后就能快速使用了。


本hadoopsys的安装包,带了如下几种开源框架

1,Ant1.9.4
2,Maven3.0.5
3,JDK1.7u25
4,Hadoop2.2.0
5,Hbase0.96.2
6,Zookeeper3.4.5
7,Hive0.13.13
全是Java有关的框架,主要目的在于安装Hadoop,其他的都是附带的基本配置

本脚本能够快速在Linux上安装JAVA环境,并部署hadoop,其中关于hadoop,hbase和Zookeeper的配置
分别在压缩包内的conf目录,关于Hive,暂时没有安装。


脚本配置说明:
1,第一个要配置的是hosts文件,不是系统的hosts文件,而是我们集群安装的集群ip
2,默认的脚本是放在root根目录下,所有的文件压缩包解压到根目录下hadoopsys文件里
3,配置etc,hadoopconf文件,hbaseconf文件,zkconf文件,后,执行repack脚本,进行重新
打包。
4,然后执行pub脚本,进行机器分发压缩包,并解压
5,最后执行begin脚本,开始执行安装
6,注意一点,在etc/java.sh和begin.sh里面需要设置一个安装用户变量,目的
是给指定的用户目录路径下解压安装框架


一切完毕之后注意配置hadoop的nd,dd,tmp,hadooptmp,hbasetmp的文件夹,有些需要自己创建,完成之后在主的
机器上,进行格式化,然后启动hadoop集群即可。


解压后的文件如下:



脚本在最后会打包上传,关于各个安装包,就不上传了,上传的大小有限制,大家可以自己下载对应的版本。

  • 大小: 268.7 KB


转自:http://qindongliang.iteye.com/blog/2119620

相关问答

更多
  • 确切的说hadoop是有生态系统这一说,spark我还真不太清楚,生态系统简单理解的话其实指的是很多其他的系统或者框架、应用依赖于hadoop这个系统,hadoop加上很多其他的系统共同构成的hadoop的生态圈
  • hadoop生态圈有:hdfs,hbase,hive,mr,zookeeper,yarn等东西~都是运行hadoop集群都应该有的。
  • Map Reduce -MapReduce 是使用集群的并行,分布式算法处理大数据集的可编程模型。Apache MapReduce 是从 Google MapReduce 派生而来的:在大型集群中简化数据处理。当前的 Apache MapReduce 版本基于 Apache YARN 框架构建。YARN = “Yet-Another-Resource-Negotiator”。YARN 可以运行非 MapReduce 模型的应用。YARN 是 Apache Hadoop 想要超越 MapReduce 数据处理 ...
  • Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。 下图为hadoop的生态系统:
  • Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。 主要特点: 分布式计算 内存计算 容错 多计算范式 Spark于2009 年诞生于加州大学伯克利分销AMPLab。目前,已经成为Apache软件基金会旗下顶级开源项目。 在“One Stack to rule them all”思想的引领下,Spark成功的使用Spark SQL、Spark Streaming、 ...
  • Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。   Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。
  • 基于Walker Hale IV对类似(但截然不同!)问题的回答,有两个关键要做到这一点: 你不需要安装分发和pip,因为它们被自动包含在一个新的虚拟环境中(你大概只想要已经用virtualenv测试过的版本) 您可以使用virtualenv源代码来创建新的虚拟环境,而不是使用系统安装的virtualenv版本 所以工作流程是: 在您的系统上安装Python版本X. 下载virtualenv源代码版本Q(可能是最新的) 用Python X和virtualenv Q创建新的虚拟环境 您的新VE现在正在运行Py ...
  • Apache Falcon通过以下方式简化了数据运动的配置: 生命周期管理; 血统和可追溯性。 这为Hadoop组件提供了数据治理一致性。 Falcon复制与delta变化是异步的。 通过运行进程并交换源和目标来完成恢复。 数据丢失 - 如果主群集完全关闭,Delta数据可能会丢失 可根据带宽和网络可用性在需要时安排备份。 Apache Falcon simplifies the configuration of data motion with: replication; lifecycle manage ...
  • 将其拆分,使用FOREACH生成计数,然后使用ORDER BY的正常表达式。 尝试这个。 A = LOAD 'file' USING PigStorage(',') as (a:chararray,b:int); B = group A BY a; C = FOREACH B GENERATE group,COUNT(A.a); D = ORDER C By $1; Split it up, use FOREACH for generating count and then a normal expres ...
  • 是的,但您必须使用RHadoop( https://github.com/RevolutionAnalytics/RHadoop/wiki ) 它运行在CDH上。 您可以在此处找到有关Cloudera和RHadoop的更多信息: http://www.cloudera.com/content/cloudera/en/solutions/partner/Revolution-analytics.html Yes but you will have to use RHadoop (https://github. ...