![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
波哥的技术积累
这个作者很懒,什么都没留下…
展开
-
Hive之压缩存储
压缩存储有时候可以获得更好的性能。 使用TextFile存储时,可以使用GZIP或者BZIP2进行压缩。操作如下CREATE TABLE raw (line STRING) ROW FORMAT DELIMITED FIELDSTERMINATED BY '\t' LINES TERMINATED BY '\n';LOAD DATA LOCAL INPATH '/tmp/weblo原创 2015-02-02 22:40:04 · 5904 阅读 · 2 评论 -
Hive文件存储格式的测试比较
http://yugouai.iteye.com/blog/1851606转载 2015-02-04 21:54:32 · 846 阅读 · 0 评论 -
Hive-函数
1:使用show functions来显示所有的函数, 使用类似describe function substr的命令来查看函数substr的定义 2:常见函数 执行命令select array(1, 2, 3, 4) from dual;生成一行结果[1, 2, 3, 4]原创 2015-02-03 23:50:06 · 629 阅读 · 0 评论 -
Hive-自定义文件格式
前面在讲述创建表的语句时,省略了一些内容,更加完整的语法如下CREATE TABLE t1(...) STORED AS TEXTFILE;最后的STORED AS 子句,指的是Hive数据文件的存储格式,这里使用的是TEXTFILE,还有SEQUENCEFILE和RCFile,一共三种。TEXTFILE是最普通的文件存储格式,内容是可以直接查看。SEQUCENFILE是包原创 2015-02-03 21:41:43 · 10104 阅读 · 0 评论 -
Hive命令行工具
Hive支持sequenceFile,说明可以对文件进行压缩,RCFile支持列式存储,做到稀疏存储,减小空间,读取速度快。 图:使用命令hive --hiveconf hive.cli.print.current.db=true;来设置hive()后面跟着数据库的名字 图:使用命令来设置查询时出现列名原创 2015-01-15 22:00:09 · 1420 阅读 · 0 评论 -
hive 分区表、桶表和外部表
1:分区表 图:创建分区表 图:导入数据 图:在HDFS的显示信息分区字段就是一个文件夹的标识 图:在多列上创建分区 图:导入数据 图:在多列上建立分区后在HDFS上形成的结构信息把表中的大多数字段建立为分区字段,可行吗?分区不是越多原创 2015-01-14 23:20:54 · 9026 阅读 · 0 评论 -
Hive-表连接
Hive只支持等值连接,即ON子句中使用等号连接,不支持非等值连接。Hive内置的数据存储类型,TextFile, SequenceFile, ORC(列式存储)如果连接语句中有WHERE子句,会先执行JOIN子句,再执行WHERE子句。[吴超1] 假设有以下测试数据表user数据如下User_idname1张三原创 2015-02-02 23:34:15 · 14089 阅读 · 2 评论 -
Hive之复合类型
hive array、map、struct使用hive提供了复合数据类型:Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; b INT},我们可以通过c.a来访问域aMaps(K-V对):访问指定域可以通过["指定域名称"]进行,例如,一个Map M包含了一个group-》gid的kv对,gid的值可以通过原创 2015-02-02 22:00:51 · 677 阅读 · 0 评论 -
基于hive的日志数据统计实战
http://blog.csdn.net/sutine/article/details/5653137转载 2015-02-04 22:51:11 · 706 阅读 · 0 评论