首页 \ 教程 \ hadoop

知识点

hadoop

采用MapReduce与Hadoop进行大数据分析

掌握方法如何利用Hadoop廉价大数据分析

Hadoop之MapReduce

Hadoop-MapReduce后时代

Hadoop+SQL Server+Excel=大数据分析

Hadoop storm大数据分析知识体系结构

转使用Storm实现实时大数据分析

Hadoop -- MapReduce过程

Hadoop应用：剖解MapReduce

使用Hadoop构建MapReduce应用

Hadoop Mapreduce Cookbook

理解Hadoop的MapReduce

使用Hadoop MapReduce 进行排序

MapReduce与yarn的理解与区别

MapReduce TotalOrderPartitioner 全局排序

大数据分析时代：Hadoop MapReduce

2019-03-28 14:13|来源: 网络

　　当Yahoo宣布成立新公司Hortonworks接手Hadoop服务之后，业内的目光再次集中到这家大型互联网公司，而这一次的关键字是“大数据”。

　　在波士顿举行的Enzee Univers 2011大会上，厂商、分析师以及咨询师认为目前大数据技术已经在企业软件中占据了一席之地。无论目前结构化数据还是非结构化数据，它们在深度与广度上都飞速地增长着，企业能否有效管理并挖掘利用这些数据将决定信息化建设的发展走势。

　　Hadoop MapReduce：企业数据仓库的替代品？

　　针对大数据领域，其实有很多技术提供商都参与了Yahoo的项目。Apache Hadoop是一个开源项目，Yahoo就是其中最大的贡献者;Google MapReduce是Hadoop架构的一个主要在组件，开发出的软件可以用来分析大数据集，它在目前的火爆程度已经无需赘言;Cloudera是Hadoop最早的技术支持、服务和软件提供商，它今后将直接与Yahoo的Hortonworks展开竞争。此外，EMC还推出了付费的Hadoop产品并基于MapR Technologies公司的技术。

　　据Yahoo前任首席数据官Usama Fayyad的说法，在一些场景中MapReduce和Hadoop可以良好地协同，为大型计算任务提供网格支持，而并不是所有。有些情况下，它们并不是必须品，但现在许多企业都在过度地追捧使用MapReduce和Hadoop，这将造成不良的影响。其中一位参会人员Shawn Rogers也表示，目前Hadoop过分部署的问题已经逐渐浮出水面：“新技术的出现就像玩具公司推出新产品一样，我们总会第一时间把它买回家，现在是时候反思一下Hadoop的弊端了。”

　　Forrester机构的高级分析师James Kobielus表示，其实部署Hadoop并不是完全必要的。具有shared-nothing并行处理架构的企业数据仓库平台完全可以支持数据库内分析(in-database analytics)和高性能数据管理。Kobielus在他即将发表的报告中，向早期Hadoop实施者提出了一份调查，询问他们针对PB级别数据仓库是否首先考虑试错法(tried-and-true approach)。

　　Kobielus说：“根据案例调查显示，许多企业都会利用Teradata或者Oracle的产品作为EDW。但是他们也会在Hadoop上构建大数据项目，其中原因很多，比如通过使用Apache Hadoop，他们能够避于支付大量的软件许可费用，还可以根据变更的需求更改原代码从而得到更高的灵活性，此外全球的Hadoop社区也不断涌现出惊艳的创新。”

　　Kobielus也同意前两位的观点，并不是所有的认为都需要用到Hadoop和MapReduce，尽管Hadoop将逐渐成为出类拔萃的分析平台，但它目前与企业数据仓库相比，在实时集成以及健壮的高可用性方面都存在这一定的缺陷。

　　尽管Hadoop存在一定缺陷是不争的事实，但还是有许多企业用户已经将Hadoop软件纳入了他们的数据管理系统工具中。Intuit公司的数据仓库架构师Arup Ray向我们介绍，他的公司在进行即席分析(ad hoc analysis)时，已经将Hadoop当做ETL引擎了。此外，Intuit还使用了Netezza的技术进行部分分析工作。

　　相反地，像T-Mobile这样的大型电信运营商还是拒绝使用Hadoop技术，它们的网络系统主管Christine Twiford说：“针对是否使用Hadoop我们也进行了讨论，但最后我们还是选择使用Netezza产品，我认为它以及完全能满足我们的需求了。”据介绍，T-Mobile早在五年前就更换了Oracle应用，转而使用Netezza的产品，在数据加载速度上提高了50%。

　　尽管如此，关于Hadoop和MapReduce的讨论还是连绵不绝，而像T-Mobile这样的公司也不止一家。在TechTarget最新的一份IT调查报告中显示，只有1%的用户表示他们的数据仓库架构中使用了Hadoop技术，13%的用户表示在2012年有使用Hadoop的意向。结果与Gartner的报告相吻合。

　　目前技术产品推广的力度很大，而且大数据分析软件的竞争也空前的激烈。最新的IBM Netezza Capacity Appliance在上周的会议中正式问世，它具有在几分钟之内分析10 PB数据的能力，它也是Netezza被IBM收购之后推出的第一款设备。虽然IBM官方并没有明确指出，但我们都知道新设备是瞄准了大数据领域。

　　开源能否引领新浪潮？

　　Forrester机构的Kobielus指出，像Hadoop和R语言这样的开源工具已经成功开启了大数据分析之门。而Rogers则认为开源虽然在这一方面起到了非常积极的作用，但是它们是以一种不太成熟的方式进入市场的。就拿Hadoop、Pentaho和Jaspersoft举例，与传统的私有产品相比，开源技术的发展步伐更慢一些。虽然它是探索前沿的一个非常好的方式，但是开源的精神能否跟上主流的需求这是一个问题。

知识点

相关文章

最近更新

大数据分析时代：Hadoop MapReduce

相关问答

MapReduce版本2入门(Getting started with MapReduce version 2)[2022-03-14]

用于hadoop mapreduce的罐子(Jars for hadoop mapreduce)[2023-07-28]

Mapreduce组合器(Mapreduce Combiner)[2023-06-29]

Mapreduce for傻瓜(Mapreduce for dummies)[2023-09-11]

MapReduce没有减少？(MapReduce not reducing?)[2022-03-31]

MongoDb MapReduce(MongoDb MapReduce)[2022-02-20]

MapReduce结果的增量更新(Incremental update to MapReduce results)[2022-11-05]

Spark中的mapreduce参数(mapreduce parameters in Spark)[2024-02-12]

调用MapReduce两次(Calling MapReduce Twice)[2022-07-30]

Hadoop和MapReduce(Hadoop and MapReduce)[2023-06-28]