hadoop和storm的区别

2019-03-02 23:38|来源: 网路

快,指时延

storm:网络直传,基于内存,流式处理,省去了批量处理收集数据的时间和作业调度时延,用于实时

hadoop:hdfs传输,磁盘作为中间交换的介质,基于任务调度

吞吐:单位时间内处理的数据量

当数据量很大时,比的是吞吐,那hadoop会比storm快

本文出自 “linux&python” 博客,请务必保留此出处http://mikeluwen.blog.51cto.com/5619187/1435251


转自:http://mikeluwen.blog.51cto.com/5619187/1435251

相关问答

更多
  • 一、hadoop、Storm该选哪一个? 为了区别hadoop和Storm,该部分将回答如下问题: 1.hadoop、Storm各是什么运算 2.Storm为什么被称之为流式计算系统 3.hadoop适合什么场景,什么情况下使用hadoop 4.什么是吞吐量 首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件,磁盘访问延迟约为内存访问延迟的75000倍。所以St ...
  • 应用场景不同不好比较。一般storm拿来做实时流数据的需求,而spark更适合拿来做离线数据分析。hadoop是生态圈,这里就假设你问的是hadoop核心计算框架mr.sprak和mr都适合拿来做离线数据分析,spark是快启动,在数据量不是非常大的时候(TB级别),spark有较明显的优势。
  • Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件,磁盘访问延迟约为内存访问延迟的75000倍。所以Storm更快。 注释: 1. 延时 , 指数据从产生到运算产生结果的时间,“快”应该主要指这个。 2. 吞吐, 指系统单位时间处理的数据量。 storm的网络直传、内存计算,其时延必然比hadoop的通过hdfs传输低得多;当计算模型比较适合流式时,storm的流式处理,省去 ...
  • Hadoop 是一个生态圈。 里面由 很多如 mapreduce hive hbase hdfs 组成。 storm 是流式处理的老大。 速度快 即时通讯。 淘宝的JStorm 可以达到百万级每秒。 spark 是对 hadoop 的 MR 的改进。 由于 MR 需要不断的将数据落盘,互相拉取导致 IO 大。 降低少量数据的运算速度(落盘是为了大量数据时 出错可以在错误的地方继续处理 ,而 Spark 只能重来)。 spark 采用的内存计算。 不需要中间数据落盘。所以速度会快, 非常适合机器学习用(几G ...
  • 首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件,磁盘访问延迟约为内存访问延迟的75000倍。所以Storm更快。 注释: 1. 延时 , 指数据从产生到运算产生结果的时间,“快”应该主要指这个。 2. 吞吐, 指系统单位时间处理的数据量。 storm的网络直传、内存计算,其时延必然比hadoop的通过hdfs传输低得多;当计算模型比较适合流式时,storm的 ...
  • Storm用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能 Spark采用了内存计算。从多迭代批处理出发,允许将数据载入内存作反复查询,此外还融合数据仓库,流处理和图形计算等多种计算范式。Spark构建在HDFS上,能与Hadoop很好的结合。它的RDD是一个很大的特点。 Hadoop当前大数据管理标准之一,运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。
  • bg4.png 1、大数据核心是什么? 我觉得大数据的核心,首先是有其价值,如果数据量很大,而没有价值,那么大数据也就没什么特别了,所以大数据的最重要的就是我们能从大量数据中分析、挖掘出对组织有益的信息,当然了,到底有没有用,还得经过实际验证。 另外,就是速度得快,市场机会稍纵即逝,所以如果分析那么多数据,需要一个星期,或者一个月,那么可能意义也不大了。 2、Storm, Spark, Hadoop三个大数据处理工具谁将成为主流? 其实这些只是表面不同的工具而已,本质上的思想是一致,我相信未来还会有更多的工 ...
  • 两个不同层面的问题,没有什么不可以的。主要是要做好资源竞争方面的管理。一般Hbase都是实时查询多一点,所以应该设以更大的优先级。
  • spark与hadoop的比较我就不多说了,除了对硬件的要求稍高,spark应该是完胜hadoop(Map/Reduce)的。storm与spark都可以用于流计算,但storm对应的场景是毫秒级的统计与计算,而spark(stream)对应的是秒级的。这是主要的差别。