Hive
文章平均质量分 76
forrestxingyunfei
这个作者很懒,什么都没留下…
展开
-
Hive学习一
Hive学习一标签(空格分隔): HiveHive学习一一概述二hive安装进行创建表加载数据测试三配置hive元数据存储在mysql中查看相关元数据表信息四熟悉基本的DML和DDL语句一,概述从某种意义上来说,Hive其实就是Hadoop 客户端。 元数据metadata(RDBMS:MySQL,PostgeSQL) MapReduce编程的不便性: 1,MapReduce is原创 2016-04-19 08:46:14 · 818 阅读 · 1 评论 -
hive-udaf开发实例1
1,pom配置: org.apache.hive hive-exec 1.1.0-cdh5.8.3 org.apache.hadoop hadoop-client 2.6.0-cdh5.8.32,java代码:package com.ibeifeng.udaf;import org.apache原创 2017-06-03 22:49:24 · 704 阅读 · 0 评论 -
hive-udf开发实例1
1,pom配置: org.apache.hive hive-exec 1.1.0-cdh5.8.3 org.apache.hadoop hadoop-client 2.6.0-cdh5.8.32,java代码:package com.ibeifeng.udf;import java.util.r原创 2017-06-02 21:52:08 · 480 阅读 · 2 评论 -
hive数据压缩技术001
一、 压缩方案比较关于Hadoop HDFS文件的压缩格式选择, 我们通过多个真实的Track数据做测试,得出结论如下:1. 系统的默认压缩编码方式 DefaultCodec 无论在压缩性能上还是压缩比上,都优于GZIP 压缩编码。这一点与网上的一些观点不大一致,网上不少人认为GZIP的压缩比要高一些,估计和Cloudera的封装及我们Track的数据类型有关。2. Hive文原创 2017-06-05 22:06:01 · 355 阅读 · 0 评论 -
Hive作业优化
1、Join原则将条目少的表/子查询放在 Join的左边。 原因是在 Join 操作的 Reduce 阶段,位于 Join左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出的几率。当一个小表关联一个超大表时,容易发生数据倾斜,可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理。如:SELECT /*+ MAPJOIN(use原创 2017-06-04 23:09:30 · 422 阅读 · 0 评论 -
Hive学习六:HIVE日志分析(用户画像)
Hive学习六:HIVE日志分析(用户画像)标签(空格分隔): HiveHive学习六HIVE日志分析用户画像案例分析思路一创建临时中间表二将中间结果存放到临时表中三创建结果表并存入最终jieguoji总结案例分析思路根据原始数据表里面的信息提取用户画像信息,一方面实现难度较大,另一方面由于数据量较大,从而导致实现的性能较差。由于以上2点,所以考虑从原始表中提取用户的会话信息放到临时中间原创 2016-04-19 10:36:43 · 5219 阅读 · 0 评论 -
Hive学习五--日志案例分析
Hive学习五–日志案例分析标签(空格分隔): HiveHive学习五日志案例分析一,统计分析每日各时段的PV和UV 1:创建数据库drop database if exists db_track;create database db_track;2,创建表(建hive表,表列分隔符和文件保持一致)drop table if exists db_track.track_log ;create原创 2016-04-19 10:36:11 · 941 阅读 · 0 评论 -
Hive学习四
Hive学习四标签(空格分隔): HiveHive学习四一Hive中UDF编程案例1二Hive中UDF编程案例2去除字段的双引号一,Hive中UDF编程–案例11, eclipse增加pom.xml依赖<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <原创 2016-04-19 09:40:44 · 615 阅读 · 0 评论 -
Hive学习三
Hive学习三标签(空格分隔): HiveHive学习三一 load方式加载数据注意分区表加载数据的特殊性二将hive查询结果保存到表中和本地三常见查询练习如group by having join sort by order by等一, load方式加载数据,注意分区表加载数据的特殊性1, 创建普通表并加载数据create table if not exists emp(empno原创 2016-04-19 09:21:08 · 470 阅读 · 0 评论 -
Hive学习二
Hive学习二标签(空格分隔): HiveHive学习二二内部表和外部表的区别三分区表的功能创建加载数据和查询一,hive表的三种创建,应用场景以及练习截图 第一种:CREATE TABLE IF NOT EXISTS studb.studu_log_001(ip string COMMENT 'remote ip address' ,user string ,reqest_url stri原创 2016-04-19 08:58:49 · 481 阅读 · 0 评论 -
jdbc通过hive server2访问hive
1,pom配置: org.apache.hadoop hadoop-client 2.6.0-cdh5.8.3 org.apache.hadoop hadoop-common 2.6.0-cdh5.8.3 org.apache.hive hive-jd原创 2017-06-03 22:55:08 · 499 阅读 · 0 评论