简介：本系列的用 Hadoop 进行分布式数据处理，第 1 部分：入门展示了如何在一个单节点集群中使用 Hadoop。本文在此基础之上继续介绍一个更加高级的设置，即使用多个节点进行并行处理。展示了多节点集群所需的各种节点类型，并探讨了一个并行环境中的 MapReduce 功能。本文还深入探究了 Hadoop 的管理方面 — 同时基于命令行和 Web。

相关阅读：

用 Hadoop 进行分布式数据处理，第 1 部分：入门 http://www.linuxidc.com/Linux/2012-08/68177.htm
用 Hadoop 进行分布式数据处理，第 2 部分：进阶 http://www.linuxidc.com/Linux/2012-08/68178.htm
用 Hadoop 进行分布式数据处理，第 3 部分：应用程序开发 http://www.linuxidc.com/Linux/2012-08/68179.htm

Hadoop 分布式计算架构的真正实力在于其分布性。换句话说，向工作并行分布多个节点的能力使 Hadoop 能够应用于大型基础设施以及大量数据的处理。本文首先对一个分布式 Hadoop 架构进行分解，然后探讨分布式配置和使用。

分布式 Hadoop 架构

根据用 Hadoop 进行分布式数据处理，第 1 部分：入门，所有 Hadoop 守护进程都在同一个主机上运行。尽管不运用 Hadoop 的并行性，这个伪分布式配置提供一种简单的方式来以最少的设置测试 Hadoop 的功能。现在，让我们使用机器集群探讨一下 Hadoop 的并行性。

根据第 1 部分，Hadoop 配置定义了让所有 Hadoop 守护进程在一个节点上运行。因此，让我们首先看一下如何自然分布 Hadoop 来执行并行操作。在一个分布式 Hadoop 设置中，您有一个主节点和一些从节点（见图 1）。

图 1. Hadoop 主从节点分解

如图 1 所示，主节点包括名称节点、从属名称节点和 jobtracker 守护进程（即所谓的主守护进程）。此外，这是您为本演示管理集群所用的节点（使用 Hadoop 实用程序和浏览器）。从节点包括 tasktracker 和数据节点（从属守护进程）。两种设置的不同之处在于，主节点包括提供 Hadoop 集群管理和协调的守护进程，而从节点包括实现 Hadoop 文件系统（HDFS）存储功能和 MapReduce 功能（数据处理功能）的守护进程。

对于该演示，在一个 LAN 上创建一个主节点和两个从节点。设置如图 2 所示。现在，我们来探讨用于多节点分布的 Hadoop 的安装和配置。

图 2. Hadoop 集群配置

为简化部署，要运用虚拟化技术，该技术有几个好处。尽管在该设置中使用虚拟化技术看不出性能优势，但是它可以创建一个 Hadoop 安装，然后为其他节点克隆该安装。为此，您的 Hadoop 集群应显示如下：在一个主机上的虚拟机监控程序上下文中将主从节点作为虚拟机（VM）运行（见图 3）。

图 3. 虚拟环境中的 Hadoop 集群配置

相关问答

Linux入门和进阶买什么书好[2022-04-08]

入门的话看鸟哥的私房菜很推荐数据库的话还是推荐oracle的官方教材
hadoop搭建完全分布式完成，可是不会用[2023-08-27]

1、能搭好环境说明水平还不错。 2、下边应该分以下几步走：一，依据示例程序，自己手写wordcount之类的示例程序，以此充分了解m/r和hdfs的简单原理。二，针对某些知识点，如hadoop应用场景、hadoop的简单应用等，去百度一下搞定，这样的问题最关键、最需要做的。三，深入阅读hadoop的源码，把框架的数据流或说工作流搞个大致清楚。四，试着用hadoop解决一些实际问题和项目应用。参考下吧。
Hadoop与分布式数据处理 Spark VS Hadoop有哪些异同点[2023-01-26]

1、 Spark VSHadoop有哪些异同点？ Hadoop:分布式批处理计算，强调批处理，常用于数据挖掘、分析 Spark:是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速, Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的，它将 Scal ...
linux 分布式系统都有哪些？[2022-07-23]

常见的分布式文件系统有，GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统，而是应用级的分布式文件存储服务。 GFS（Google File System） -------------------------------------- Google公司为了满足本公司需求而开发的基于Linux的专有分布式文件系统。。尽管Google公布了该系统的一些技术细节，但Google并没有将该系统的软件部分作为 ...
关于分布式Hadoop在WINDOWS上操作问题[2023-11-29]

若在windows的Eclipse工程中直接启动mapreduc程序，需要先把hadoop集群的配置目录下的xml都拷贝到src目录下，让程序自动读取集群的地址后去进行分布式运行(您也可以自己写java代码去设置job的configuration属性)。　　若不拷贝，工程中bin目录没有完整的xml配置文件，则windows执行的mapreduce程序全部通过本机的jvm执行，作业名也是带有“local"字眼的作业，如 job_local2062122004_0001。这不是真正的分布式运行mapred ...
hadoop搭建完全分布式完成，可是不会用[2022-04-01]

搭建的文本，很久了，现在更新的最新版本搭建更加简单，建议你去看看黑马里边的教程，免费的
hadoop 集群和 hadoop 分布式怎么理解啊[2022-02-07]

hadoop集群指的是一群机器在一起提供一个hadoop的集群的服务。 hadoop分布式指的是hadoop支持任务分布式运行，因为有hadoop集群提供服务，所以hadoop将任务分发到集群的多台机器运行，所以叫做分布式。一个是服务器架构，一个是任务运行架构。
Hadoop分布式模式(Hadoop distributed mode)[2022-07-10]

在hadoop的不同节点上的安装应该几乎相同，因此，您必须在群集的每个节点中指定HADOOP_HOME（我还指定HADOOP_PREFIX到同一位置）指向您的hadoop安装。您的每个节点都应该能够通过ssh“无密码”模式相互连接，所以我相信你问题的最后一部分没有多大意义;） The installation on your different nodes of hadoop should be almost identical, and for that reason, you must specify ...
如何检查我的hadoop是否以伪分布式模式运行？(How to check if my hadoop is running in pseudo distributed mode?)[2023-03-05]

要知道您是以独立还是伪分布模式运行hadoop，请验证您的配置文件。以下信息可能有帮助。 To know if you are running hadoop in Standalone or Pseudo distributed mode, verify your configuration files. Below information might help.
分布式缓存和性能Hadoop(Distributed Cache and performance Hadoop)[2021-07-25]

是的，文件通过网络传输，通常是通过HDFS传输。与使用HDFS进行非数据本地任务相比，它不会对网络造成任何压力。如果文件很大，可能会出现网络拥塞，但是你已经把你的jar推送到所有这些任务跟踪器，所以只要你的文件不比你的文件大得多，你的开销就不应该是太糟糕了。文件的复制与最终将拉动此文件的任务跟踪器的数量完全分开。复制也将从一个节点链接到另一个节点，无论如何都是具有容错分布式文件系统的成本。同样，网络拥塞不再是将jar推送到所有任务跟踪器的问题，假设分布式缓存中的文件与jar的大小相同。总的来说， ...

知识点

相关文章

最近更新

用 Hadoop 进行分布式数据处理，第 2 部分: 进阶

相关问答

Linux入门和进阶买什么书好[2022-04-08]

hadoop搭建完全分布式完成，可是不会用[2023-08-27]

Hadoop与分布式数据处理 Spark VS Hadoop有哪些异同点[2023-01-26]

linux 分布式系统都有哪些？[2022-07-23]

关于分布式Hadoop在WINDOWS上操作问题[2023-11-29]

hadoop搭建完全分布式完成，可是不会用[2022-04-01]

hadoop 集群和 hadoop 分布式怎么理解啊[2022-02-07]

Hadoop分布式模式(Hadoop distributed mode)[2022-07-10]

如何检查我的hadoop是否以伪分布式模式运行？(How to check if my hadoop is running in pseudo distributed mode?)[2023-03-05]

分布式缓存和性能Hadoop(Distributed Cache and performance Hadoop)[2021-07-25]

知识点

相关文章

最近更新

用 Hadoop 进行分布式数据处理，第 2 部分: 进阶

相关问答

Linux入门和进阶买什么书好[2022-04-08]

hadoop搭建完全分布式完成，可是不会用[2023-08-27]

Hadoop与分布式数据处理 Spark VS Hadoop有哪些异同点[2023-01-26]

linux 分布式系统都有哪些？[2022-07-23]

关于分布式Hadoop在WINDOWS上操作问题[2023-11-29]

hadoop搭建完全分布式完成，可是不会用[2022-04-01]

hadoop 集群 和 hadoop 分布式 怎么理解啊[2022-02-07]

Hadoop分布式模式(Hadoop distributed mode)[2022-07-10]

如何检查我的hadoop是否以伪分布式模式运行？(How to check if my hadoop is running in pseudo distributed mode?)[2023-03-05]

分布式缓存和性能Hadoop(Distributed Cache and performance Hadoop)[2021-07-25]

hadoop 集群和 hadoop 分布式怎么理解啊[2022-02-07]