Hadoop——Microsoft大数据战略的核心

2019-03-28 13:55|来源: 网络

如今,Microsoft已经将Hadoop作为自身大数据战略的核心。Microsoft此举的理由就是看中了Hadoop的潜力,在大数据领域Hadoop已经成为分布式数据处理的标准。通过集成Hadoop技术,Microsoft允许客户访问快速增长的Hadoop生态系统。同时随着越来越多善于在Hadoop平台进行开发的人才涌出,这对Hadoop发展极其有利。

Microsoft的目标不仅仅是将Hadoop集成到Windows系统之中,Microsoft有意向Apache Hadoop社区贡献代码,并希望得到社区的采纳。最终使任何人都可以在Windows上运行纯粹开源的Hadoop。

打上Microsoft烙印的Hadoop

Microsoft的Hadoop版本目前发展到“客户技术预览版”的阶段。这意味着Microsoft在接受客户群体的评价,预计正式版会在2012年中期推出。Microsoft的Hadoop基于Windows Server平台或Microsoft云平台Azure之上。在将要推出的1.0版本之中,产品核心包括MapReduce、HDFS、以及Hadoop组件Pig和Hive。

Microsoft的目标是兼容所有的Hadoop组件。Hadoop生态系统中的Zookeeper、HBase、HCatalog和Mahout等组件也会被附加到Microsoft的Hadoop版本之中。

同时Microsoft推出的Hadoop还会与自身之前的商业智能分析产品做整合。

●Hadoop连接器将使Hadoop与SQL Server和SQL Server并行数据仓库之间的通信变得简单。

●Hive的ODBC驱动,允许任何Windows应用程序访问并对Hive数据仓库进行查询。

●Excel对Hive的访问,使数据直接从Hive移动到Excel和PowerPivot。

在后端,Microsoft对Hadoop进行了其他的改善,Microsoft将整合Active Directory方便访问控制。同时集成System Center用于管理人员管理。

Microsoft官方计划在即将于6月举行的TechED大会上公布有关WAAD(Windows Azure Active Directory)的更多细节。这与Microsoft在Windows Server系统上的Active Directory的概念如出一辙。未来使用ACS(Access Control Service)与现有的Active Directory部署时可保证良好的互操作性。

相关问答

更多
  • 使用HDFS的command命令去查看hdfs上的文件,或者使用默认的Hadoop的web管理器查看,从hadoop0.2.23后,hadoop设计了一套Rest风格的接口,通过http协议访问的方式,去浏览和操作HDFS上的数据。
  • Hadoop本身是分布式框架,如果在hadoop框架下,需要配合hbase,hive等工具来进行大数据计算。如果具体深入还要了解HDFS,Map/Reduce,任务机制等等。如果要分析还要考虑其他分析展现工具。 大数据还有分析才有价值 用于分析大数据的工具主要有开源与商用两个生态圈。开源大数据生态圈:1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。2、. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用 ...
  • 1.vi sss.txt 随便写点什么。 2. hadoop fs ls,当前用户的话是hadoop fs ~/ls 3.hadoop fs -copyFromLocal 本地文件 /user/shijin/test (hdfs 路径) 4. hadoop fs -ls 刚才上传的路径 5. hadoop fs -copyToLocal file(刚才上传的路径) dstFile(本地文件名) 6. ls 存储目录
  • 这个肯定不是的啊,大数据你用excel都行,大数据的概念你可以看一下百度的百科,我们就是做大数据可视化分析的,大数据魔镜,有hadoop的版本的,有兴趣的话你可以关注下哈
  • 不是,只是因为hadoop是开源的,而且Apache开发的,各方面都比较稳定,也方便开发个性化
  • Hadoop本身是分布式框架,如果在hadoop框架下,需要配合hbase,hive等工具来进行大数据计算。如果具体深入还要了解HDFS,Map/Reduce,任务机制等等。如果要分析还要考虑其他分析展现工具。 大数据还有分析才有价值 用于分析大数据的工具主要有开源与商用两个生态圈。开源大数据生态圈:1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。2、. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用 ...
  • 都很好Hadoop应用及开发Python主要做数据挖掘。方向不同罢了。只要是这两个方面技术合格的人才都会很好的。
  • bg4.png 1、大数据核心是什么? 我觉得大数据的核心,首先是有其价值,如果数据量很大,而没有价值,那么大数据也就没什么特别了,所以大数据的最重要的就是我们能从大量数据中分析、挖掘出对组织有益的信息,当然了,到底有没有用,还得经过实际验证。 另外,就是速度得快,市场机会稍纵即逝,所以如果分析那么多数据,需要一个星期,或者一个月,那么可能意义也不大了。 2、Storm, Spark, Hadoop三个大数据处理工具谁将成为主流? 其实这些只是表面不同的工具而已,本质上的思想是一致,我相信未来还会有更多的工 ...
  • hadoop就是基于Mapreduce框架的分布式平台,一般安装在Linex上面,也可以使用虚拟机在windows下使用。分布式程序可以在多台机器上生成多个节点,每个节点运行程序的一部分,然后合并起来,比单节点运行效率高很多。 推荐本书《hadoop in action》(hadoop实战),还有论文可以看很多数据挖掘会议的论文,现在有很多人研究。我的毕业论文就是写这个
  • 八斗学院的课程内容是非常全面的,我就是在那里学的,包括Hadoop生态的各个框架和常用的算法都讲到了,主要是讲的都很透彻。面试的时候问的知识都讲过,其实真入职工作了也用不到那么多知识,可能每个公司也不一样吧