HBase 是Hadoop的一个子项目,HBase采用了Google BigTable的稀疏的,面向列的数据库实现方式的理论,建立在hadoop的hdfs上,一方面里用了hdfs的高可靠性和可伸缩行,另外一方面里用了BigTable的高效数据组织形式.可以说HBase为海量数据的real-time相应提供了很好的一个开源解决方案.据说在某运营商中使用类似于 BigTable(个人猜测应该就是HBase)的技术可以在两秒时间内从2TB数据中查找到某条话费记录.而这是原来该运营商使用Oracle数据库所无法解决的问题.

对于HBase使用的类似与BigTable的技术我们这里就不仔细描述,可以参考google的论文以及网上的一些相关资料.另外,HBase的配置在HBase的官方文档中有很详细的描述.可以参见相关文档.

HBase提供了一个类似于mysql等关系型数据库的shell.通过该shell我们可以对HBase的内的相关表以及列族进行控制和处理.HBase shell的help命令比较详细的列出了HBase所支持的命令.具体使用方法可以参见其文档.

这里我们用一个学生成绩表作为例子,对HBase的基本操作和基本概念进行讲解:

下面是学生的成绩表:

name grad course:math course:art

Tom 1 87 97

Jerry 2 100 80

这里grad对于表来说是一个列,course对于表来说是一个列族,这个列族由两个列组成:math和art,当然我们可以根据我们的需要在course中建立更多的列族,如computer,physics等相应的列添加入course列族.

有了上面的想法和需求,我们就可以在HBase中建立相应的数据表啦!

1, 建立一个表格 scores 具有两个列族grad 和courese

hbase(main):002:0> create \'scores\', \'grade\', \'course\'

0 row(s) in 4.1610 seconds

2,查看当先HBase中具有哪些表

hbase(main):003:0> list

scores

1 row(s) in 0.0210 seconds

3,查看表的构造

hbase(main):004:0> describe \'scores\'

{NAME => \'scores\', IS_ROOT => \'false\', IS_META => \'false\', FAMILIES => }

1 row(s) in 0.0130 seconds

4, 加入一行数据,行名称为 Tom 列族grad的列名为”” 值位1

hbase(main):005:0> put \'scores\', \'Tom\', \'grade:\', \'1\'

0 row(s) in 0.0070 seconds

5,给Tom这一行的数据的列族添加一列

hbase(main):006:0> put \'scores\', \'Tom\', \'course:math\', \'87\'

0 row(s) in 0.0040 seconds

6,给Tom这一行的数据的列族添加一列

hbase(main):007:0> put \'scores\', \'Tom\', \'course:art\', \'97\'

0 row(s) in 0.0030 seconds

7, 加入一行数据,行名称为 Jerry 列族grad的列名为”” 值位2

hbase(main):008:0> put \'scores\', \'Jerry\', \'grade:\', \'2\'

0 row(s) in 0.0040 seconds

8,给Jerry这一行的数据的列族添加一列

hbase(main):009:0> put \'scores\', \'Jerry\', \'course:math\', \'100\'

0 row(s) in 0.0030 seconds

9,给Jerry这一行的数据的列族添加一列

hbase(main):010:0> put \'scores\', \'Jerry\', \'course:art\', \'80\'

0 row(s) in 0.0050 seconds

10,查看scores表中Tom的相关数据

hbase(main):011:0> get \'scores\', \'Tom\'

COLUMN CELL

course:art timestamp=1224726394286, value=97

course:math timestamp=1224726377027, value=87

grade: timestamp=1224726360727, value=1

3 row(s) in 0.0070 seconds

11,查看scores表中所有数据

hbase(main):012:0> scan \'scores\'

ROW COLUMN+CELL

Tom column=course:art, timestamp=1224726394286, value=97

Tom column=course:math, timestamp=1224726377027, value=87

Tom column=grade:, timestamp=1224726360727, value=1

Jerry column=course:art, timestamp=1224726424967, value=80

Jerry column=course:math, timestamp=1224726416145, value=100

Jerry column=grade:, timestamp=1224726404965, value=2

6 row(s) in 0.0410 seconds

知识点

相关文章

最近更新

Hadoop HBase入门

相关问答

哪个不是Hadoop 的核心组件 hbase hive zookeeper riak[2022-04-10]

hadoop和hbase问题[2022-03-08]

HBASE主要和Hadoop一起使用，但是我想知道，HBASE和STORM一起使用可以吗？有什么利[2022-05-10]

HBase 的一个报错 hadoop zk hbase 都正常启动[2022-07-24]

了解hadoop+hbase帮忙。。。[2023-09-19]

没学过hadoop可以直接学hbase吗[2022-04-11]

将数据从Hbase导出到hadoop(Export data from Hbase to hadoop)[2023-09-03]

最新的兼容版本的hadoop和hbase(Latest compatible version of hadoop and hbase)[2023-12-24]

使用Hadoop 1.0.3进行HBase配置(HBase Configuration with Hadoop 1.0.3)[2022-04-26]

Hadoop和HBase集成(Hadoop and HBase integration)[2022-04-04]