大数据总结 (zz)

2019-03-02 23:52|来源: 网路

最近刚看了新的一期《程序员》杂志的一篇大数据的文章,总结的特别好,为了方便我去查找所有将里面的内容再次精简后写下来。

在这篇文章里主要是几个方面:
数据传输、数据存储、数据计算、数据展现、数据开发平台、数据应用市场

我之前对数据的总结在:数据存储、数据管理、数据计算

 

数据传输包括:实时同步、批量同步。一般常用方式采用时间线。

数据存储包括:内核级分布式存储、用户级分布式文件存储、业务级数据存储。

前两个类别其实很好理解,最后一个是有分类的,包括:列式数据库存储、文档数据库存储、K/V型数据库存储、图形数据库、关系型数据库。以上数据库都构建于文件系统之上。

 

数据计算包括:离线计算、流式计算、即时计算、图计算。

离线计算这是我们常用的(适应于很多场景),具体的体现就是在hadoop上运行M/R模型(有些离线计算,还是基于内存的方式)。

流式计算的依据数据时间的增长,而数据的价值会快速下降。它依赖于上游数据传输的正确性、实时性、下游存储系统的高吞吐量,目前因为没有这样的业务,所以还没能体验流式计算。(使用的工具是Storm)

 

即时计算是根据查询需求从海量数据中即时进行排名、排重、汇总等运算。此系统又分为两类:在线数据应用和在线数据分析,前者目前在Google里用的PowerDrill项目,在阿里集团用的Garuda项目;后者Google使用Dremel,Cloudera使用Impala(可分析Hbase和HDFS,与Hive共享元数据,这个工具也是后面我们需要调研),目前在Apache里Drill开源项目也在开发中。

 

图计算对用户关系、网页关系等数据的深度挖掘,涉及大型的矩阵计算、图计算和网络计算。解决此类问题引入了MPI或BSP模型,目前Apache的Hama项目就是应用于此等场景。

 

数据展现简单地讲就是通过表格、饼图、柱状图展现数据,也叫数据可视化。

 

数据开发平台和数据应用市场,这两块对我来说还是很陌生的,以后再好好琢磨吧。


转自:http://www.cnblogs.com/end/archive/2012/12/24/2831484

相关问答

更多
  • 数据表明,近几年的大数据人才缺口已高达百万,远远满足不了市场的需求,数据统计,大数据工程师薪酬高于其他职位,工作一年后通常都会成为月薪10K以上的资深工程师或项目经理。在魔据教育应届毕业生培训完平均就业薪资在6K-10K左右,优秀的大数据学员可以达到15K以上。
  • 物联网的正常运行和发展离不开大数据 研究大数据绝对离不开计算机的云计算技术 计算机云技术时代的到来将大数据处理变为了现实 没有计算机的云计算技术,就不会有大数据的被分析和利用。大数据技术跟计算机云计算技术的关系就像是一只手的手心和手背,是绝对的密不可分,因为分析和处理大数据是无法用某一台计算机来完成的,它必须需要采用计算机的分布式架构,处理大数据的特色就是在于对那些海量性的数据进行分布式的数据挖掘,但这种分布式的大数据挖掘,还必须依托计算机的分布式处理,因为计算机的分布式数据库或是云存储以及计算机中的虚拟化 ...
  • 大数据的基础知识,科普类的,自己去买本书就行了,大数据时代这样的书很多介绍的大数据的。 另外大数据的技术,如数据采集,数据存取,基础架构,数据处理,统计分析,数据挖掘,模型预测,结果呈现。 当然一些大数据的一些基础知识,比如java和hadoop等等,这个基本得自学。大学里面最接近这些的也就是计算机类专业。 云计算的话,需要学习的知识应该包括但不限于:1、网络通信知识,包括互联网基础建设相关的所有知识;2、虚拟化知识,应该了解硬件运行原理以及虚拟化实现技术;3、数据库技术;4、网络存储技术;5、网络信息安全 ...
  • 每个机构都不一样吧!我在金铭鼎学的JAVA大数据,学了Java基础语法、面向对象、JAVA集合框架、多线程编程与0.5并发包、XML解析、Java8、JVM生态下其他开发语言、JavaWeb开发、Hadoop、搭建Hadoop集群等等,太多了。
  • 首先,高中学历学习这个是完全没有问题的,想学好java大数据,需要你学好大数据的基础java语言,高中学历入门java语言是没有问题的,后期就会延伸到大数据领域,不过需要你平时多下苦工,多学习如果可以的话找一个专业的培训机构学习吧,这样能学的更加系统
  • 没有更好。这个要取决于你的技术的深度。如果你的技术够好那就都行。如果想快速入门,就 python。这个好上手。
  • 大数据集群?[2022-07-12]

    大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 魔方(大数据模型平台) 大数据模型平台是一款基于服务总线与分布式云计算两大技术架构的一款数据分析、挖掘的工具平台,其采用分布式文件系统对数据进行存储,支持海量数据的处理。采用多种的数据采集技术,支持结构化数据及非结构化数据的采集。通过图形化的模型搭建工具,支持流程化的模型配置。通过第三方插件技术,很容易将其他工具及 ...