走进Spark--云计算大数据新一代技术

2019-03-02 23:42|来源: 网路

什么是Spark?

当然这里说的Spark指的是Apache Spark, Apache Spark is a fast and general engine for large-scale data processing: 一种快速通用可扩展的数据分析引擎。如果想要搞清楚Spark是什么,那么我们需要知道它解决了什么问题,还有是怎么解决这些问题的。

 

Spark解决了什么问题?

在这里不得不提大数据,大数据有两个根本性的问题,一个是数据很大,如何存储?另外一个是数据很大,如何分析?毕竟分析大数据是为了改善产品的用户体验,从而获取更多的价值。

对于第一个问题,开源社区给出的方案就是HDFS,一个非常优秀的分布式存储系统。

对于第二个问题,在Hadoop之 后,开源社区推出了许多值得关注的大数据分析平台。这些平台范围广阔,从简单的基于脚本的产品到与Hadoop 类似的生产环境。Bashreduce在 Bash环境中的多个机器上执行 MapReduce 类型的操作,可以直接引用强大的Linux命令。GraphLab 也是一种MapReduce 抽象实现,侧重于机器学习算法的并行实现。还有Twitter 的 Storm(通过收购 BackType 获得)。Storm 被定义为 “实时处理的 Hadoop”,它主要侧重于流处理和持续计算。

Spark就是解决第二个问题的佼佼者。

Why Spark?

现在有很多值得关注的大数据分析平台,那么为什么要选择Spark呢?

速度

与Hadoop的MapReduce相比,Spark基于内存的运算比MR要快100倍;而基于硬盘的运算也要快10倍!

易用

Spark支持Java,Python和Scala。而且支持交互式的Python和Scala的shell,这意味这你可以非常方便的在这些shell中使用Spark集群来验证你的解决问题的方法,而不是像以前一样,打包。这对于原型开发非常重要!

Hadoop的WorldCount的Mapper和Reducer加起来要20多行吧。Spark仅需要:

甚至可以将它们放到一行。

通用性

Spark提供了All in One的解决方案!

Spark All In One的解决方案非常具有吸引力,毕竟任何公司都想要Unified的平台去处理遇到的问题,可以减少开发和维护的人力成本和部署平台的物力成本。

当然还有,作为All in One的解决方案,Spark并没有以牺牲性能为代价。相反,在性能方面,Spark还有很大的优势。

Hadoop的集成

Spark可以使用YARN作为它的集群管理器,并且可以处理HDFS的数据。这对于已经部署Hadoop集群的用户特别重要,毕竟不需要做任何的数据迁移就可以使用Spark的强大处理能力。Spark可以读取 HDFS , HBase , Cassandra 等一切Hadoop的数据。

当然了对于没有部署并且没有计划部署Hadoop集群的用户来说,Spark仍然是一个非常好的解决方法,它还支持 standalone , EC2 和 Mesos 。你只要保证集群的节点可以访问共享的内容,比如通过NFS你就可以非常容易的使用Spark!

Spark的现状与未来

值得庆祝的里程碑:

·        2009:Spark诞生于AMPLab

·        2010:开源

·        2013年6月:Apache孵化器项目

·        2014年2月:Apache顶级项目

·        Hadoop最大的厂商Cloudera宣称加大Spark框架的投入来取代Mapreduce

·        Hadoop厂商MapR投入Spark阵营

·        Apache mahout放弃MapReduce,将使用Spark作为后续算子的计算平台

·        2014年5月30日Spark1.0.0发布


转自:http://www.cnblogs.com/spark-china/p/3801220

相关问答

更多
  • 物联网的正常运行和发展离不开大数据 研究大数据绝对离不开计算机的云计算技术 计算机云技术时代的到来将大数据处理变为了现实 没有计算机的云计算技术,就不会有大数据的被分析和利用。大数据技术跟计算机云计算技术的关系就像是一只手的手心和手背,是绝对的密不可分,因为分析和处理大数据是无法用某一台计算机来完成的,它必须需要采用计算机的分布式架构,处理大数据的特色就是在于对那些海量性的数据进行分布式的数据挖掘,但这种分布式的大数据挖掘,还必须依托计算机的分布式处理,因为计算机的分布式数据库或是云存储以及计算机中的虚拟化 ...
  • 大数据的基础知识,科普类的,自己去买本书就行了,大数据时代这样的书很多介绍的大数据的。 另外大数据的技术,如数据采集,数据存取,基础架构,数据处理,统计分析,数据挖掘,模型预测,结果呈现。 当然一些大数据的一些基础知识,比如java和hadoop等等,这个基本得自学。大学里面最接近这些的也就是计算机类专业。 云计算的话,需要学习的知识应该包括但不限于:1、网络通信知识,包括互联网基础建设相关的所有知识;2、虚拟化知识,应该了解硬件运行原理以及虚拟化实现技术;3、数据库技术;4、网络存储技术;5、网络信息安全 ...
  • 1、新版社保卡是与银行联名的金融社保卡,电脑号是在卡右下角超级超级超级无敌小的数字,千万不要把卡号当成电脑号。 2、旧版社保卡很明确的在卡正中间明确写电脑号:XXXXXXXXX。 拓展资料 1、社保卡的硬件体系结构主要包括:服务器、工作终端、初始化设备、读卡设备、加密机等等。该卡要求采用密码算法,采用芯片技术合作,有很严格的密钥管理体系和审批程序,造假可能性极低。 2、社保卡是国家赋予个人社会保障权益的一种载体,请大家保护好自己的权益,特别是加载金融功能后,把卡借给别人就等于把自己的银行卡借给别人,对自己的 ...
  • 首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。 HDFS,在由普通PC组成的集群上提供高可靠的文件存储,通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。 MapReduce,通过简单的Mapper和Reducer的抽象提供一个编程模型,可以在一个由几十台上百台的PC组成的不可靠集群上并发地,分布式地处理大量的数据集,而把并发、分布式(如机器间通信)和故障恢复等计算细节隐藏起来。而Mapper和Re ...
  • 刘鹏教授的《云计算(第一版)》《云计算(第二版)》《实战Hadoop》都非常不错,很适合刚入门的人学习
  • CURRBARSCOUNT是求到最后交易日的周期数。同花顺的barscount可以代替,barscount是指求总的周期数。 用法: BARSCOUNT(X)第一个有效数据到当前的天数 例如: BARSCOUNT(CLOSE) 对于日线数据取得上市以来总交易日数,对于分笔成交取得当日成交笔数。
  • 首先,如果新实例与卷存在于同一区域中,则只能保留现有卷。 否则,您需要复制该卷。 假设您没有更改存储卷类型(SSD,配置SSD,磁性),则在同一区域中附加现有卷不应导致更好或更差的性能。 如果您使用非SSD,那么如果转移到SSD卷,您肯定会获得提升。 如果您正在使用新的内存优化实例,那么您将需要SSD支持的存储。 First, you can only keep your existing volumes to attach if the new instance exists in the same zo ...