云计算Hadoop配置

2019-03-28 14:22|来源: 网络

1.1 配置资源需求

2  Linux Ubuntu 10.10  

//最新版本可上官方网站免费下载 www.ubuntulinux.org

//也可以向 Ubuntu 社区申请免费安装 shipit.ubuntu.com

Hadoop 0.21.0包

//最新版本可在 Apache 提供的镜像服务器下载

//www.apache.org → download → 镜像服务器 →hadoop

2  Sun-java6-jdk 包

//在终端机里输入:sudo apt-get install sun-java6-jdk

//系统会自动下载包以及所有的依存包,同时进行包的安装

2  SSH包

//远程登录会话提供安全性协议

//在终端机里输入:sudo apt-get install ssh

2  Eclipse包

 //官方下载最新版本:www.eclipse.org/downloads/

1.2 资源配置流程

1.2.1 安装ubuntu 10.10

1)        更新deb软件包列表

       $ sudo apt-get update

2)        安装系统更新

       $ sudo apt-get upgrade

1.2.2 安装JDK6

1)        安装

   $ sudo apt-get install sun-java6-jdk      //默认路径在/usr/lib/jvm,安装时需要 TAB 键选择 OK

2)        配置Java环境变量

    $ sudo gedit /etc/environment        //在environment文件中添加CLASSPATH和JAVA_HOME

    CLASSPATH=".:/usr/lib/jvm/java-6-sun/lib"

    JAVA_HOME="/usr/lib/jvm/java-6-sun"

3)        调整虚拟机顺序

        $ sudo gedit /etc/jvm           //添加/usr/lib/jvm/java-6-sun,如果jvm文件不存在,自己创建一个

1.2.3 安装ssh

1)        安装open-server

    $ sudo apt-get install open-server

2)        建立SSH KEY

    $ ssh-keygen -t rsa -P ""

3)        启动SSH KEY

    $ cat $HOME/.ssh/id_rsa.pub >>$HOME/.ssh/authorized_keys

    $ sudo /etc/init.d/ssh reload

4)        验证ssh配置

    $ ssh localhost

图1-1 验证ssh

1.2.4 安装Hadoop

1)        安装Hadoop

          $ cd  ~          //选择进入默认文件夹

         $ sudo tar xvf hadoop-0.21.0.tar.gz //解压至当前路径

         $ mv hadoop-0.21.0 hadoop //重命名为 hadoop

         $ sudo chown -R administrator:administrator hadoop  //赋予administrator权限

2)        配置HADOOP_HOME or HADOOP_COMMON_HOME

    因为在不同的版本中配置的HADOOP_HOME的名称不一样,所以首先查看不同的Hadoop版本用的到底是哪一个名称的,输入命令:

     $ vim bin/start-dfs.sh

图 1-2 查看HADOOP_COMMON_HOME

     从查看文件的标示中可以看出,该版本的hadoop中用的名称是HADOOP_COMMON_HOME,所以只要配置该名称的环境变量即可,首先找到Hadoop所安装的目录,然后,编辑/etc/environment文件,加入图1-3所示黑体的一句话即可。

     $ sudo vim /etc/environment

图1-3 配置HADOOP_COMMON_HOME

3)        配置JAVA_HOME(当前路径在HADOOP_OME下面)

   配置$HADOOP_HOME/conf/hadoop-env.sh,添加本地JAVA_HOME的路径。

    $ sudo vim conf/hadoop-env.sh

图1-4 配置hadoop-env.sh

相关问答

更多
  • hadoop云计算[2023-12-23]

    Hadoop是由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求( ...
  • 云计算是一个比较虚的概念,只是提出了一种理念,把原本在一台计算机上进行的计算工作放到了一个云平台上进行,云平台可能是由多台计算机构成的集群组成的,有统一的管理平台来负责协调这些计算机的工作调度。 而Hadoop就是基于这种思想的一种具体实现,也就是一种具体的云计算平台,它能够协调管理多台计算机,使之并发工作。
  • hadoop配置[2022-10-16]

    不是你的环境变量的问题。不知道楼主有没有看Hadoop官网上的介绍。Hadoop所使用的jdk需要修改 conf/hadoop-env.sh 文件,在其中设置 JAVA_HOME 环境变量: export JAVA_HOME="C:\Program Files\Java\jdk1.5.0_01” (因为路径中 Program Files 中间有空格,一定要用双引号将路径引起来) 这里必须是修改Hadoop的conf/hadoop-env.sh 文件,和机器的环境变量没有关系。 有中文文档的。在Hadoop目 ...
  • hadoop本来带的单词统计的例子就可以测试了,呵呵搭建环境得一步步来呀,楼上说的对,你这问题太笼统了,应该这么:1、XP或Win7下如何安装VMWare虚拟机,这个安装好后装linux系统。2、虚拟机安装linux系统(ubuntu、redhat、fedora等等选择一个...
  • “云计算”(Cloud Computing)是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。许多跨国信息技术行业的公司如IBM、Yahoo和Google等正在使用云计算的概念兜售自己的产品和服务。云计算这个名词可能是借用了量子物理中的“电子云”(Electron Cloud),强调说明计算的弥漫性、无所不在的分布性和社会性特征。量子物理上有“电子云(electr ...
  • 你好,王家林老师讲解的spark和hadoop确实在国内是首屈一指的,我们公司5月份专门邀请过王家林老师来给公司的员工解决技术上的难点,员工反映王老师讲解的课程非常好。公司准备7月份再次邀请王家林老师来讲解spark课程。你可以在7月份邀请王家林老师。
  • 云计算是一个系统工程的蓝图,而hadoop就好比是做该工程中某些部件的一个工具而已。 也就是说,云计算包括很多东西,涉及到方方面面,而hadoop呢专长于数据处理,用这个框架能够帮你省去很多活,不用他,一样可以进行云计算
  • Hadoop现在已经广泛应用于包 括 FaceBook,Twitter, Yahoo! 等公司,通常情况下这些机群包括数以千计的服务器和数以万计的CPU。 Hadoop 作为基础云计算平台 ,包括了超过 100 个的用户可配置参数 ( 版本 0.19.2) , 而这些参数中很大一部分对所部署的 Hadoop 系统性能具有极大的影响。 平台即服务 (PaaS)主要关注软件框架或服务,提供在基础设施中进行“云”计算所用的 API。Apache Hadoop作为PaaS构建在虚拟主机上,作为云计算平台。 基于Ha ...
  • Hadoop现在已经广泛应用于包 括 FaceBook,Twitter, Yahoo! 等公司,通常情况下这些机群包括数以千计的服务器和数以万计的CPU。 Hadoop 作为基础云计算平台 ,包括了超过 100 个的用户可配置参数 ( 版本 0.19.2) , 而这些参数中很大一部分对所部署的 Hadoop 系统性能具有极大的影响。 平台即服务 (PaaS)主要关注软件框架或服务,提供在基础设施中进行“云”计算所用的 API。Apache Hadoop作为PaaS构建在虚拟主机上,作为云计算平台。 基于Ha ...
  • 课程目标 熟悉和掌握云计算的架构与原理 了解大规模数据处理的核心技术 熟悉并理解企业大规模数据处理应用的注意事项 对开源系统Hadoop的行业应用 课程内容 Hadoop 技术及其应用基础 1天 Hadoop 管理员 2天 Hadoop 开发员 2天 Hive 开发管理 1天 来源:商业智能和数据仓库爱好者 提供,商业智能和云计算。。。。。陪训,,,,,包括这个课