管理 Hadoop 集群的5大工具

2019-03-28 13:40|来源: 网络

当你利用 Hadoop 进行大数据分析和处理时,首先你需要确保配置、部署和管理集群。这个即不容易也没有什么乐趣,但却受到了开发者们的钟爱。本文提供了5款工具帮助你实现。

Apache Ambari

Apache Ambari是对Hadoop进行监控、管理和生命周期管理的开源项目。它也是一个为Hortonworks数据平台选择管理组建的项目。Ambari向Hadoop MapReduce、HDFS、 HBase、Pig, Hive、HCatalog以及Zookeeper提供服务。

Apache Mesos

Apache Mesos

Apache Mesos是集群管理器,可以让用户在同一时间同意集群上运行多个Hadoop任务或其他高性能应用。Twitter的开放源代码经理Chris Aniszczyk表示,Mesos可以在数以百计的设备上运行,并使其更容易执行工作。

Platform MapReduce

Platform MapReduce提供了企业级可管理性和可伸缩性、高资源利用率和可用性、操作便利性、多应用支持以及一个开放分布式系统架构,其中包括对于Hadoop分布式文件系统(HDFS)和Appistry Cloud IQ的即时支持,稍后还将支持更多的文件系统和平台,这将确保企业更加关注将MapReduce应用程序转移至生产环境中。

StackIQ Rocks+ Big Data

StackIQ-Marchitecture

StackIQ Rock+ Big Data是一款Rocks的商业流通集群管理软件,该公司已加强支持Apache Hadoop。Rock+支持Apache、Cloudera、Hortonworks和MapR的分布,并且处理从裸机服务器来管理Hadoop集群配置的整个过程。

Zettaset Orchestrator

Zettaset Orchestrator是端到端的Hadoop管理产品,支持多个Hadoop的分布。Zettaset吹捧Orchestrator的基于UI的经验和MAAPS(管理、可用性、自动化、配置和安全)的处理能力。

相关问答

更多
  • 弄了一个大大的ResourceManager,醒目吧哈哈- -,扯淡到此为止,ResourceManager是Master,仲裁集群所有的可用资源,从而帮助管理运行在Yarn平台上的分布式应用程序。 与其他组建的协作包括:接收ApplicationMaster的资源请求,每个节点的NodeManager从ResourceManager中获取指令,管理单个节点上的可用资源。(ApplicationMaster的职责就是向ResourceManager申请资源并且和NodeManager一起工作、启动、监控和停 ...
  • [postbg]bg4.png[/postbg]可以手工scp:scp把你安装的文件、目录,包括环境变量,比如profile。都需要复制过去。记得profile复制过去的时候,使用source命令,生效一下。例如: scp /usr/hadoop hadoop1: /usr/hadoop scp /etc/profile hadoop1:/etc/profile可以使用集群管理工具pupet,或则ambari,ambari可以下面的内容http://www.aboutyun.com/thread-7503- ...
  • 如果您正在使用Cloudera发行版,Cloudera Manager webapp将允许您这样做。 其他发行版可能有类似的控制应用程序。 这将为您提供每节点控制。 对于执行MR任务,您通常会设置从外部节点提交作业,指向正确的JobTracker和NameNode。 所以我不确定你还有什么要求。 If you're using the Cloudera distribution, the Cloudera Manager webapp would let you do that. Other distrib ...
  • 这些位与您注意到的相同。 不同之处在于默认运行的服务和Ambari组件集(在Spark上你将有额外的spark thrift,livy,jupyter)和这些服务的配置集。 因此,虽然技术上可以在hadoop集群上的纱线上运行火花作业,但不推荐使用,但某些配置可能未设置为最佳值。 反过来会更可靠 - 创建火花集群并在其上运行hadoop作业。 Maxim(HDInsight Spark PM) The bits are the same as you noticed. The difference is s ...
  • 不确定这是否是确切原因,但Classic Hadoop和YARN架构使用不同的调度程序。 Classic Hadoop使用JobQueueTaskScheduler ,而YARN默认使用CapacityScheduler 。 Not sure if this is the exact reason, but the Classic Hadoop and YARN architectures use a different scheduler. Classic Hadoop uses a JobQueueTa ...
  • 如果您有脚本语言方面的经验,那么您可以去找厨师。 这些配方已经可用于集群的部署和配置,并且很容易入手。 如果想要自己做,那么你可以使用sshxcute java API在远程服务器上运行脚本。 您可以在那里构建命令并将它们传递给sshxcute API以部署群集。 If you have some experience in scripting language then you can go for chef. The recipes are already available for deploymen ...
  • 你是部分正确的。 为了避免Jobtracker做出调度和监控的负担,YARN被引入了画面。 因此,对于YARN,您没有任何作业跟踪器或任务跟踪器。 Job跟踪器完成的工作现在由资源管理器完成,资源管理器有两个主要组件Scheduler(为应用程序分配资源)和ApplicationsManager(接受作业提交并在发生任何故障时重新启动ApplicationMaster)。 现在每个应用程序都有一个ApplicationMaster,它从调度程序协调容器(将运行作业的位置)以运行应用程序。 Nodemanag ...
  • 我找到了解决方案。 为了增加文件mapred-site.xml中减少器的数量,我添加了 A 5 在我向集群添加其他节点之后,hadoop增加了映射器,而配置中没有任何其他更改。 现在所有数据节点都以最大功能运行。 I found the solution. To increase number of reducers in the file mapred-site.xml I added ...
  • Zookeeper是分布式系统的协调框架。 Zookeeper用于协调HDFS和Yarn高可用性状态,Hbase主服务器和区域服务器之间的协调等.Kafka与Apache Storm,Apache HBase和Apache Spark结合使用,用于实时分析和呈现流数据。 常见用例包括: 流处理。 网站活动跟踪 度量标准收集和监控 日志聚合 通常我们使用Kafka和Storm。 Storm需要一个zookeeper集群来协调nimbus和supervisor之间的协调。 Kafka需要zookeeper来存储 ...