用 Linux 和 Apache Hadoop 进行云计算

2019-03-28 14:24|来源: 网络

IBM?、Google、VMWare 和 Amazon 等公司已经开始提供云计算产品和战略。本文讲解如何使用 Apache Hadoop 构建一个 MapReduce 框架以建立 Hadoop 集群,以及如何创建在 Hadoop 上运行的示例 MapReduce 应用程序。还将讨论如何在云上设置耗费时间/磁盘的任务。

云计算简介

近来云计算越来越热门了,云计算已经被看作 IT 业的新趋势。云计算可以粗略地定义为使用自己环境之外的某一服务提供的可伸缩计算资源,并按使用量付费。可以通过 Internet 访问 “云” 中的任何资源,而不需要担心计算能力、带宽、存储、安全性和可靠性等问题。

本文简要介绍 Amazon EC2 这样的云计算平台,可以租借这种平台上的虚拟 Linux? 服务器;然后介绍开放源码 MapReduce 框架 Apache Hadoop,这个框架将构建在虚拟 Linux 服务器中以建立云计算框架。但是,Hadoop 不仅可以部署在任何厂商提供的 VM 上,还可以部署在物理机器上的一般 Linux OS 中。

在讨论 Apache Hadoop 之前,我们先简要介绍一下云计算系统的结构。图 1 显示云计算的各个层以及现有的一些服务。关于云计算的各个层的详细信息。

基础设施即服务 (Infrastructure-as-a-Service,IaaS)是指以服务的形式租借基础设施(计算资源和存储)。IaaS 让用户可以租借计算机(即虚拟主机)或数据中心,可以指定特定的服务质量约束,比如能够运行某些操作系统和软件。Amazon EC2 在这些层中作为 IaaS,向用户提供虚拟的主机。平台即服务 (Platform-as-a-Service,PaaS)主要关注软件框架或服务,提供在基础设施中进行 “云” 计算所用的 API。Apache Hadoop 作为 PaaS,它构建在虚拟主机上,作为云计算平台。


图 1. 云计算的层和现有服务
云计算的各个层 

相关问答

更多
  • hadoop云计算[2023-12-23]

    Hadoop是由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求( ...
  • linux云计算创业[2023-06-03]

    linux云计算 就是 运用 虚拟化软件实现 网络资源共享,现在比较热门的方向是 p2p ,还有出租虚拟服务器。 有个想法,利用这个技术,你可以生成无数个网络游戏服务端,实现同一游戏,真正的不同的体验。真正的贵族游戏。
  • 最重要的是找个指导老师,可以选荣新教育,我感觉价格什么的还是很划算的。
  • 我已成功使用Spark 1.0.0设置了上述配置。 这有点长,但大多数问题都与配置有关。 也许经验丰富的Spark + Hadoop开发人员没有问题,除了我将在下面写的那个。 上面的问题是针对Spark 0.9.1,现在已经过时了,所以回答它并不是那么有用。 但是一个问题是跨平台问题,并且仍然适用于Spark 1.0.0。 我已经为它创建了一个pull请求: https : //github.com/apache/spark/pull/899 如有兴趣,请点击链接。 更新 :上述跨平台问题已在1.3.0版本 ...
  • 我们在oreder中的hdfs-site.xml中缺少以下属性以使其工作。 dfs.datanode.https.address 0.0.0.0:50475 dfs.namenode.https-address.namenodeha.nn1 bd-azure-qa-nn1:50470
  • 请切换到新的API,即“mapreduce”而不是“mapred”。 此外,由于您计划为学生编写维基,因此更有意义。 它们应该是最新的。 对吗?如果你需要一些关于如何设置eclipse来编写MapReduce程序的东西,你会发现这个链接很有用。 Please switch to the new API, i.e the "mapreduce" and not "mapred". Also, it makes more sense since you are planning to write a wiki ...
  • 您的网址无效。 HDFS中没有home文件夹。 试试这个: ./bin/spark-submit /home/hduser/count.py /user/hduser/data.txt Your URL is not valid. There is no home folder in HDFS. Try this instead: ./bin/spark-submit /home/hduser/count.py /user/hduser/data.txt
  • 您应该添加/usr/lib/hadoop-0.xx/lib找到的所有jar以避免这种类路径问题。 为了给你一个想法,你可以输入hadoop classpath ,它将打印出获取Hadoop jar和所需库所需的类路径。 在你的情况下,你错过了hadoop-common-0.xx.jar ,所以你应该把它添加到classpath中,你应该很好。 You should add all the jars found in /usr/lib/hadoop-0.xx/lib to avoid this kind of ...
  • Linux HA是一种基于软件的高可用性集群服务,用于提高多种服务的能力。 这意味着 - 此Linux HA用于保持所需的服务正常运行,无需停机。 这使用心跳的概念来标识集群中的服务状态。 例如,如果您在hostA上运行Web服务器,则它也会被复制以在hostB上运行。 每当hostA关闭时,hostB就会启动并提供请求。 即服务器没有提供停机时间。 而Apache Hadoop是一个解决存储大量数据和处理数据的问题的框架。 Linux HA is a software based High-availab ...
  • 编辑hdfs-site.xml中的dfs.web.ugi属性,并在那里添加您的用户。 它默认是webuser,webgroup 。 Edit the dfs.web.ugi property in hdfs-site.xml and add your user there. It is by default webuser,webgroup.