Hive应用
文章平均质量分 61
Hive的应用示例和使用心得,供正在学习或者感兴趣的朋友参考,欢迎交流
yfk
这个作者很懒,什么都没留下…
展开
-
hive merge小文件
当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,在我们向一个表写数据时,也需要注意输出文件大小1. Map输入合并小文件对应参数:set mapred.max.原创 2013-02-19 11:57:06 · 31441 阅读 · 0 评论 -
hive void类型
hive文档中(http://blog.csdn.net/yfkiss/article/details/7752180)没有说明一种类型叫做void但是,void类型确真实存在,并且,对有void类型的表的访问会引发一些问题!如下:> select * from a;OKNULL NULL1 NULL> CREATE TABLE test原创 2013-01-14 10:51:44 · 6300 阅读 · 3 评论 -
转义字符引发的血案(hive、bash)
hive hql:从一个字符串“p?a?b?c?ppp?hhh”中以?作为分隔符,找第5段字符串bash程序:test.sh#!/bin/bashhive -e "select (split('p?a?b?c?ppp?hhh','?'))[4] from a limit 1;"报错:Caused by: java.util.regex.PatternSyntaxException原创 2012-10-23 15:22:12 · 19768 阅读 · 0 评论 -
hive中文
hadoop、hive都支持UTF-8编码,我们可以使用UTF-8编码来处理中文以下两点需要注意:1. 处理脚本为UTF-8格式,包括建表脚本,数据处理脚本例如:如果在windows下使用ultraedit来写HQL程序,在保存文件的时候,保存格式为UNIX类型、UTF-8格式2. 终端采用UTF-8显示例如:secucecrt设置字符编码为UTF-8,字体为新宋体,字符集原创 2012-10-18 16:00:17 · 10645 阅读 · 0 评论 -
hive修改表模式
hive用户可以通过alter语句更改table属性Alter Partitions增加partitions:ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location1'] partition_spec原创 2012-08-14 09:20:31 · 60777 阅读 · 0 评论 -
hive array、map、struct使用
hive提供了复合数据类型:Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; b INT},我们可以通过c.a来访问域aMaps(K-V对):访问指定域可以通过["指定域名称"]进行,例如,一个Map M包含了一个group-》gid的kv对,gid的值可以通过M['group']来获取Arrays:array中的原创 2012-08-08 10:50:22 · 83548 阅读 · 1 评论 -
hive bucket
hive中table可以拆分成partition,table和partition可以通过‘CLUSTERED BY ’进一步分bucket,bucket中的数据可以通过‘SORT BY’排序。bucket主要作用:1. 数据sampling2. 提升某些查询操作效率,例如mapside join需要特别注意的是:clustered by和sorted by不会影响数据的导入,这意味原创 2012-08-01 11:35:53 · 16990 阅读 · 2 评论 -
hive指南
译自:https://cwiki.apache.org/confluence/display/Hive/Tutorialhive是什么?hive是基于hadoop构建的数据仓库基础架构,通过提供一系列的工具,使得用户能够方便的做数据ETL,数据结构化,并针对存放在hadoop上的海量数据进行查询和分析。hive定义了一种简单的类SQL查询语言---QL,QL语言方便熟悉SQL语言的翻译 2012-07-16 16:58:31 · 4005 阅读 · 0 评论