基于流的数据处理使Hadoop运行更快?

2019-03-28 13:22|来源: 网络

  Apache Hadoop分布式文件处理系统是有好处的,而且它正在获得注意力。然而,它也有坏处。有些组织发现从Hadoop开始的话需要重新思考软件架构,而且它所需要的数据技能也是必要的。

  对于一些人来说,Hadoop的批处理模型的一个问题是,它估计在突增数据采集之间的进行批处理时会有宕机的时间。这是许多企业都的情况,当他们在本地操作,或者在白天有大量事务,但很少在晚上(如果有的话)。如果夜间窗口足够大可以处理前一天积累的数据,那么一切都会顺利。虽然对于一些企业,窗口的停机时间是小或不存在的,甚至使用Hadoop的高性能的处理,他们仍然在一天内得到的数据比他们可以在24内小时处理的要多。

  对于可接受小窗口的组织,添加基于数据处理组件的方法可能有帮助,GigaSpaces的首席技术官Nati Shalom在最近的一篇关于使用Hadoop更快的博客中写到。通过不断地处理传入的数据转化成有用的包和删除那些不需要企业处理(或再加工)的静态数据,可以显着加速他们的大数据的批处理过程。

相关问答

更多
  • 越来越多的企业开始使用Hadoop来对大数据进行处理分析,但Hadoop集群的整体性能却取决于CPU、内存、网络以及存储之间的性能平衡。而在这篇文章中,我们将探讨如何为Hadoop集群构建高性能网络,这是对大数据进行处理分析的关键所在。 关于Hadoop “大数据”是松散的数据集合,海量数据的不断增长迫使企业需要通过一种新的方式去管理。大数据是结构化或非结构化的多种数据类型的大集合。而 Hadoop则是Apache发布的软件架构,用以分析PB级的非结构化数据,并将其转换成其他应用程序可管理处理的形式。Had ...
  • 不是的,hadoop是因为开源免费,再个hadoop学的人多,资料也就多,相对别的大数据处理框架人力成本和时间成本就会降低很多
  • HADOOP是使用JAVA语言来实现的,之所以使用JAVA来实现,主要是因为JAVA社区比较火热,关注的人也比较多。并不是因为使用JAVA语言来实现HADOOP更有优势,可能使用C++来实现效果更佳
  • 1、 Spark VSHadoop有哪些异同点? Hadoop:分布式批处理计算,强调批处理,常用于数据挖掘、分析 Spark:是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速, Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的,它将 Scal ...
  • 直接用hdfs就行了,它有一个设置上传的时候,不做缓存,可以直接左边打开一个流右边接入一个流就可以了。效率非常高,我之前的公司乐视网就是这么存视频文件。
  • 先创建hadoop组 sudo addgroup hadoop 然后再建一个hadoop用户加入到hadoop组,(前一个为组,后一个为用户) sudo adduser -ingroup hadoop hadoop 然后输入密码,接下来一路ENTER 完成创建 配置用户的环境变量 !
  • bg4.png 1、大数据核心是什么? 我觉得大数据的核心,首先是有其价值,如果数据量很大,而没有价值,那么大数据也就没什么特别了,所以大数据的最重要的就是我们能从大量数据中分析、挖掘出对组织有益的信息,当然了,到底有没有用,还得经过实际验证。 另外,就是速度得快,市场机会稍纵即逝,所以如果分析那么多数据,需要一个星期,或者一个月,那么可能意义也不大了。 2、Storm, Spark, Hadoop三个大数据处理工具谁将成为主流? 其实这些只是表面不同的工具而已,本质上的思想是一致,我相信未来还会有更多的工 ...
  • 就速度而言,Impala是一个不错的选择。 对于标准的Map / Reduce环境,您不太可能找到更好的环境:impala能够缓存数据块,并且即使从磁盘读取未缓存的块,也比M / R快得多。 但是当然,鉴于你有几个月的黑斑羚经验 - 你已经知道了。 AFAIK没有使用本机hadoop结构的另一个近实时蜂巢访问机制。 Impala is a good choice in terms of speed. For standard Map/Reduce environments you will not like ...
  • 我刚从Praveen Sripati收到了一封关于hadoop引用的电子邮件,我将它粘贴在这里: 在复制阶段,数据是否同时存在于map和reduce任务中? 地图输出何时清除? 以下内容来自Hadoop - The Definitive Guide 一旦第一个reducer检索到它们,主机就不会从磁盘中删除映射输出,因为reducer可能随后失败。 相反,他们会等到他们被告知由作业跟踪器(或应用程序主人)删除它们,这是在作业完成之后。 这非常重要,地图输出仍然在磁盘上! 在我的情况下有点不幸。 5) 然后减 ...
  • 通过从所有这些echo语句的末尾删除& ,您将获得相当大的加速。 测试1: $ time { for i in {1..1000}; do echo "hello"& done >/dev/null; } | cat real 0m10.357s user 0m2.764s sys 0m15.441s 当在命令行完成此操作时, cat吃掉“完成”消息。 可以使用冒号代替cat来抑制第一次定时测试中的“完成”消息。 这不是正在进行的程序,而是背景化流程是管道的一部分。 测试2: $ t ...