Hadoop学习全程记录——Hive入门

2019-03-28 14:08|来源: 网络

hive是Facebook的产品,很不错。 
官方文档:http://wiki.apache.org/hadoop/Hive/GettingStarted有很详细说明。 

基本上根据文档能对hive快速入门。在使用过程中可能会出现以下问题: 

当执行下面命令时: 
Java代码   
  1. $ $HIVE_HOME/bin/hive  

可能会出现Invalid maximum heap size: -Xmx4096m提示。 

那是因为hive默认Hadoop heap size为4096m。如果出现这个提示,你需要修改hadoop heap size的大小。方法如下: 

1.执行命令。 
Java代码   
  1. $ sudo gedit $HIVE_HOME/bin/ext/util/execHiveCmd.sh  


2.在打开的sh文件中修改HADOOP_HEAPSIZE的值(如将默认的4096改为1024),保存,退出。 

 
Java代码   
  1. # increase the threashold for large queries  
  2. HADOOP_HEAPSIZE=4096   

改为 
Java代码   
  1. # increase the threashold for large queries  
  2. HADOOP_HEAPSIZE=1024   

相关问答

更多
  • 这个要根据自己处理数据的方式来选择。 1、Hive是支持SQL语句的,执行会调用mapreduce,所以延迟比较高; 2、HBase是面向列的分布式数据库,使用集群环境的内存做处理,效率会比hive要高,但是不支持sql语句。 Hadoop开发和运行处理大规模数据,需要用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面的 hql查询,hive也即做数据仓库。
  • riak 华师大的吧- - 下面来简单介绍各个组件的作用: HDFS(Hadoop distribute file system)——Hadoop生态系统的基础组件Hadoop分布式文件系统。它是其他一些工具的基础HDFS的机制是将大量数据分布到计算机集群上,数据一次写入,但可以多次读取用于分析。HDFS让Hadoop可以最大化利用磁盘。 HBase—— 一个构建在HDFS之上的面向列的NoSql数据库,HBase用于对打量数据进行快速读取/写入。HBase将Zookeeper用于自身的管理,以保证其所有组 ...
  • 深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存(企业Hadoop应用核心产品) LS的Q
  • order by nulls last 不是标准sql,oracle设计的 可以这么写,再指定一个虚拟列来辅助排序 order by case when col is null then 0 else 1 end , col desc
  • 不一定,如果你不用Hadoop的HDFS和YARN,完全可以在学习Spark的时候从本地载入数据,部署用standlone模式。Spark替代的是Hadoop中的MapReduce编程范式,不包括存储和资源管理模块。 Spark的算子很多,写程序来看比HadoopMapReduce要灵活很多
  • 当然可以了。hive只是一个数据仓库的工具。运行一些HQL语句。不一定非得分布式。
  • ①hive中的hive*-site.xml需要添加一些内容(方便的话,可以贴出配置文件) ②需要将相应的lib下的jar和conf下的xml配置文件拷贝到hive中
  • MapReduce只是一个计算框架 。 HBase与此无关。 也就是说,您可以通过编写MapReduce作业来有效地将数据提取到/从HBase中获取。 或者,您可以使用其他HBase API(如Java)编写顺序程序来放置或获取数据。 但是我们使用Hadoop,HBase等来处理大量的数据,所以没有什么意义。 当您的数据太大时,使用正常的顺序程序将非常低效。 回到你问题的第一部分,Hadoop基本上是两件事:一个分布式文件系统(HDFS) +一个计算或处理框架(MapReduce) 。 像所有其他FS一样, ...
  • Hive中的记录处理不当 要筛选配置单元中的错误记录,可以在查询中启用跳过模式。 跳过模式的Hive配置是: SET mapred.skip.mode.enabled = true; 您需要在hive查询之前设置上面的命令。 您还可以通过提供以下参数来限制配置: SET mapred.map.max.attempts = 100; SET mapred.reduce.max.attempts = 100; SET mapred.skip.map.max.skip.records = 30000; SET ...
  • 既然你是Hadoop和Hive的新手,你最好继续使用他们的.tar.gz档案,恕我直言。 如果事情不顺利,你不必一次又一次地完成整个卸载并重新安装。 只需下载hadoop-1.1.2.tar.gz,解压缩,将解压缩的文件夹放在一个方便的位置,然后继续进行配置。 如果您需要有关配置的一些帮助,可以访问此帖子 。 我试图用所有细节解释完整的程序。 配置Hive非常简单。 下载.tar.gz文件。 解压缩就像你使用Hadoop一样。 然后按照此处显示的步骤操作。 Since you are new to both ...