知识列表

  • Apache Storm 是一个免费的开源分布式实时计算系统。 Apache Storm 可以轻松可靠地处理无界数据流,实时处理 Hadoop 为批处理所做的工作。 Apache Storm 很简单,可以与任何编程语言一起使用,而且使用起来很有趣! Apache Storm 有很多用例:实时分析、在线机器学习、持续计算、分布式 RPC、ETL 等等。 Apache Storm 速度很快:一个基准测
  • Apache Spark 使用最先进的 DAG 调度程序、查询优化程序和物理执行引擎,为批处理和流数据实现了高性能。
  • Apache Hive 数据仓库软件有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。 结构可以投影到已经存储的数据上。 提供了命令行工具和 JDBC 驱动程序来将用户连接到 Hive。
  • Apache HBase是 Hadoop 数据库,是一种分布式、可扩展的大数据存储。 当您需要对大数据进行随机、实时读/写访问时,请使用 Apache HBase。 该项目的目标是在商品硬件集群上托管非常大的表——数十亿行 X 数百万列。 Apache HBase 是一个开源的、分布式的、版本化的、非关系型数据库,以 Google 的 Bigtable 为模型:Chang 等人的结构化数据分布式存
  • Hadoop 项目开发用于可靠、可扩展、分布式计算的开源软件。 Apache Hadoop 软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。 它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。 该库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用层的故障,因此在计算机集群之上提供高可用性服务,每台计算机都可能容易出现故障。