Hive
文章平均质量分 95
IT菜籽U
当你发现自己的才华撑不起野心时,就请安静下来学习吧
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive sql语法:inner join on, left join on, right join on详细使用方法
inner join(等值连接) 只返回两个表中联结字段相等的行left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录 INNER JOIN 语法: INNER JOIN 连接两个数据表的用法:SELECT * FROM 表1 INNER JOIN 表2转载 2017-02-09 15:49:58 · 17857 阅读 · 0 评论 -
hive case when 引发错误一例
http://yaoyinjie.blog.51cto.com/3189782/920688 发现hive 在使用 case when then else end 方式下会存在BUG, 具体表现如下,现有表: t_aa_pc_log, 其中一个字段为channel, 当channel值为'NA'或者'EMPTY'时设置为'A', 其他值设置为'B', 然后输出channe转载 2017-01-11 14:41:41 · 2212 阅读 · 0 评论 -
HIVE 数据类型转换
在《Hive内置数据类型》文 章中,我们提到了Hive内置数据类型由基本数据类型和复杂数据类型组成。今天的话题是Hive数据类型之间的转换。同Java语言一样,Hive也包括 隐式转换(implicit conversions)和显式转换(explicitly conversions)。 Hive在需要的时候将会对numeric类型的数据进行隐式转换。比如我们对两个不同数据类型的数字进行比较转载 2017-01-11 14:40:09 · 61522 阅读 · 3 评论 -
hive时间操作函数
hive时间操作函数标签: hive函数linux2016-12-21 16:07 49人阅读 评论(0) 收藏 举报 分类:hive日期函数UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string format])返回值: string说明转载 2017-01-16 08:38:35 · 3868 阅读 · 0 评论 -
hive字符串函数
1. 字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length('abcedfg') from lxw_dual;72. 字符串反转函数:reverse语法: reverse(string A)转载 2017-01-10 13:21:00 · 19220 阅读 · 0 评论 -
自定义hive永久函数详细步骤
需求原因:本公司有部门需要,Hive本身提供一个nvl的函数,但是该函数只对null值起作用,现在的需求是不只是对null起作用,对“”这样的空值也要起作用,所以需要自定义一个名叫nvls的函数,并集成到hive当中去。具体步骤:1:先写好Java文件内容如下:package org.apache.Hadoop.hive.ql.udf; impo转载 2016-12-29 09:10:09 · 1584 阅读 · 0 评论 -
Hive创建表一般流程(优化)
思路:1.创建原表2.针对不同的业务穿件不同的子表数据存储格式orcfile/parquetmap output 数据压缩 格式snappy创建外表创建分区表原创 2016-12-18 13:58:34 · 1385 阅读 · 0 评论 -
Hive中order by,sort by,distribute by,cluster by的区别
Hive中order by,sort by,distribute by,cluster by的区别标签: Hive排序Order bysort bydistritute bycluster by2015-01-30 13:38 3483人阅读 评论(0) 收藏 举报 分类:Hive(36) 一:order byorder by会对输入转载 2016-12-22 09:37:29 · 814 阅读 · 0 评论 -
Hive Order By操作
转发:http://blog.csdn.net/lzm1340458776/article/details/43230517。多谢博主!Hive中常见的高级查询包括:group by、Order by、join、distribute by、sort by、cluster by、Union all。今天我们来看看order by操作,Order by表示按照某些字段排序,语法如下:转载 2016-12-22 09:36:16 · 2602 阅读 · 0 评论 -
Hive metastore database is not initialized. Please use schematool(...) to create the schema.
一:问题:Exception in thread “main” java.lang.RuntimeException: Hive metastore database is not initialized. Please use schematool (e.g. ./schematool -initSchema -dbType …) to create the schema.异常操作如下:原创 2016-07-14 09:02:35 · 5155 阅读 · 1 评论 -
Hive 笔记异常(java.sql.SQLException: Unable to open a test connection to the given database. JDBC url =)
零 如图一 异常来源: 在hive-site.xml配置文件中 jdbc:mysql://192.168.24.26:3306/hive_13?characterEncoding=UTF-8修改为 jdbc:mysql://master:3306/hive_13?characterEncoding=UTF-8后重新登录hive客户原创 2015-09-30 13:52:46 · 21817 阅读 · 0 评论 -
hadoop中4中常用的压缩格式的特征的比较
1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip 文件转载 2016-12-12 09:22:55 · 816 阅读 · 0 评论 -
用户画像构建策略及应用实践
Qunar用户画像构建策略及应用实践2016-11-15 李国芳 大数据杂谈1用户画像的构建原则我们做用户画像的目的有两个:必须从业务场景出发,解决实际的业务问题,之所以进行用户画像要么是获取新用户,或者是提升用户体验,或者是挽回流失用户等有明确的业务目标 。根据用户画像的信息做产品设计,必须要清楚知道用户长什么样子,转载 2016-11-15 14:24:38 · 22215 阅读 · 1 评论 -
spark 操作hive相关文档以及技术操作网址链接
http://www.tuicool.com/articles/QBRJnenhttp://blog.csdn.net/hzdxw/article/details/51703292http://www.jianshu.com/p/fc919d464d31https://www.iteblog.com/archives/1491spark访问hive配原创 2016-11-15 17:21:02 · 1394 阅读 · 0 评论 -
WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no longer has any effect
WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no longer has any effect警告信息:WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no longer转载 2016-11-14 15:42:01 · 1068 阅读 · 0 评论 -
hive 数据倾斜实际问题中总结
1.数据倾斜原因a.大表(2.8G)与小表关联(580K)b.大表(2.8G)与大表(3.0G)关联首先谈论大表与小表的关联导致数据倾斜问题 实例如下:大表数据格式:小表数据格式:关联语句hive>select * from report_tour_spot_detail s join report_tour_msg_detail r原创 2016-10-25 13:16:14 · 3825 阅读 · 0 评论 -
SQL的各种连接(cross join、inner join、full join)的用法理解
SQL中的连接可以分为内连接,外连接,以及交叉连接 。1. 交叉连接CROSS JOIN如果不带WHERE条件子句,它将会返回被连接的两个表的笛卡尔积,返回结果的行数等于两个表行数的乘积;举例,下列A、B、C 执行结果相同,但是效率不一样:A:SELECT * FROM table1 CROSS JOIN table2B:SELECT * FROM tabl转载 2017-03-30 08:40:32 · 56058 阅读 · 5 评论 -
nvl,coalesce,decode,if用法及其区别
SQL中 nvl()、coalesce()、decode()这三个函数,如果只是判断非空的话,哪一个效率相比较高?nvl(bonus,0) 意思是 如果 bonus is null , 那么返回 0, 否则返回 bonuscoalesce(bonus,0,1) 意思是 返回 参数列表中, 第一个非 空的数据。也就是相当于, 如果 bonus is null , 那么返回 0, 否则返回转载 2017-03-30 08:42:32 · 4016 阅读 · 0 评论 -
Hive 操作数据库语句总结
1、创建一个表,字段之间用 \t 分隔; hive>create table student (id int, name string) row format delimited fields terminated by '\t' ;2、将本地一个数据提交到hive里去 hive>load data local inpat原创 2015-09-25 08:17:09 · 20501 阅读 · 3 评论 -
Hive安装过程遇到的问题(启动hive --service metastore &)
转载:http://blog.csdn.net/namelessml/article/details/52688955感谢博主!!异常:WARN conf.HiveConf: DEPRECATED: hive.metastore.ds.retry.* no longer has any effect. Use hive.hmshandler.retry.* instead转载 2017-08-15 15:19:54 · 30855 阅读 · 0 评论 -
Sqoop工具实现,hive、Hbase、HDFS与mysql、oracle数据导入
文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。一、Mysql与HDFS互导数据环境:宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.963台虚拟机操作系统为Ubuntu-12.04.1-32位三台虚拟机已成功安装Hadoop,并实现免密钥互访,配hosts为原创 2016-04-22 13:19:37 · 2015 阅读 · 0 评论 -
hive的查询注意事项以及优化总结
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from Ajoin Bon转载 2017-07-20 16:12:08 · 567 阅读 · 0 评论 -
hive的row_number()、rank()和dense_rank()的区别以及具体使用
转载:http://blog.csdn.net/qq_20641565/article/details/52841345?locationNum=5&fps=1row_number()、rank()和dense_rank()这三个是Hive内置的分析函数,下面我们来看看他们的区别和具体的使用案例。首先创建一个文件test:A,1B,3C,2D,3E,4F,转载 2017-07-05 09:35:00 · 1576 阅读 · 0 评论 -
hive 优化(推荐)
常用调优测试语句 : ①显示当前hive环境的参数值:set 参数名;如: hive> set mapred.map.tasks;mapred.map.tasks;②设置hive当前环境的参数值,但仅对本次连接有效set 参数名 = 值;如:hive> set mapred.map.tasks;mapred.map.tasks=2;转载 2017-07-03 09:49:27 · 678 阅读 · 0 评论 -
Hive原理
转载:http://sishuok.com/forum/blogPost/list/6220.html第一部分:Hive原理 为什么要学习Hive的原理 •一条Hive HQL将转换为多少道MR作业 •怎么样加快Hive的执行速度 •编写Hive HQL的时候我们可以做什么 •Hive 怎么将HQL转换为MR作业 •Hive会采用什么样的优化方式转载 2017-07-02 21:55:15 · 762 阅读 · 0 评论 -
sql之left join、right join、inner join的区别
转载:http://www.cnblogs.com/pcjim/articles/799302.htmlleft join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录 right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录inner join(等值连接) 只返回两个表中联结字段相等的行举例如下: --------------转载 2017-04-26 10:59:35 · 727 阅读 · 0 评论 -
hive 三种去重方式
在hive数据清洗这里总结三种常用的去重方式1.distinct2.group by3.row_number()实例:SELECT tel, link_name, certificate_no, certificate_type, modify_time FROM order_info WHERE deleted = 'F' AND pay_status =原创 2017-04-24 17:08:35 · 33957 阅读 · 2 评论 -
Hive实现自增列的两种方法
多维数据仓库中的维度表和事实表一般都需要有一个代理键,作为这些表的主键,代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列,但它也有一些对自增序列的支持,通常有两种方法生成代理键:使用row_number()窗口函数或者使用一个名为UDFRowSequence的用户自定义函数(UDF)。 假设有维度表tbl_dim和过渡表tbl_stg,现在要将tbl_stg的数据装载到t原创 2017-03-29 17:55:57 · 18206 阅读 · 0 评论 -
FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask
Total MapReduce jobs = 114/08/24 20:29:11 WARN conf.Configuration: mapred.max.split.size is deprecated. Instead, use mapreduce.input.fileinputformat.split.maxsize14/08/24 20:29:11 WARN con转载 2017-04-13 13:56:40 · 5304 阅读 · 0 评论 -
hive group by distinct区别以及性能比较
Hive去重统计相信使用Hive的人平时会经常用到去重统计之类的吧,但是好像平时很少关注这个去重的性能问题,但是当一个表的数据量非常大的时候,会发现一个简单的count(distinct order_no)这种语句跑的特别慢,和直接运行count(order_no)的时间差了很多,于是研究了一下。先说结论:能使用group by代替distinc就不要使用distinct,例子:实际论转载 2017-03-30 10:57:16 · 30510 阅读 · 20 评论 -
hive会产生大量的tmp文件
在实际的hive数据开发中,目录/tmp目录下产生大量文件数据,占用大量的磁盘空间。下面是cloudera官网给出解释:http://community.cloudera.com/t5/Storage-Random-Access-HDFS/Why-does-tmp-hive-admin-take-up-so-much-space/m-p/38863#原创 2017-03-31 15:54:14 · 6356 阅读 · 0 评论 -
hive 数据倾斜分析-=推荐
http://www.tuicool.com/articles/qUBJbuVhttp://blog.itpub.net/29754888/viewspace-1262946/调优:https://m.aliyun.com/yunqi/articles/59635转载 2017-04-01 16:01:28 · 708 阅读 · 0 评论 -
HiveSQL解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作
转载:http://www.aboutyun.com/thread-20461-1-1.html问题导读:1.什么是Hive?2.MapReduce框架实现SQL基本操作的原理是什么?3.Hive怎样实现SQL的词法和语法解析?Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hi转载 2017-04-10 13:31:47 · 780 阅读 · 0 评论 -
Hive优化—-控制hive任务的reduce数
转载:http://www.superwu.cn/?p=21231. Hive自己如何确定reduce数:reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G)h转载 2017-03-14 09:30:10 · 4360 阅读 · 0 评论 -
hive中select中DISTINCT的技巧和使用
以下是转载内容单表的唯一查询用:distinct多表的唯一查询用:group by在使用MySQL时,有时需要查询出某个字段不重复的记录,虽然mysql提供有distinct这个关键字来过滤掉多余的重复记录只保留一条,但往往只用它来返回不重复记录的条数,而不是用它来返回不重复记录的所有值。其原因是distinct只能返回它的目标字段,而无法返回其它字段,用distinct不能解决的话,原创 2016-10-24 13:48:25 · 47076 阅读 · 0 评论 -
No columns to generate for ClassWriter---Sqoop工具同步mysql到hive异常
sqoop导入mysql数据出错 用sqoop导入mysql数据出现以下错误:14/12/03 16:37:58 ERROR manager.SqlManager: Error reading from database: java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@54b0a58转载 2016-09-26 10:15:22 · 6134 阅读 · 0 评论 -
hive sequencefile 和rcfile 效率对比
源数据放在test1表中,大小 26413896039 Byte。创建sequencefile 压缩表test2,使用insert overwrite table test2 select ...语句将test1数据导入 test2 ,设置配置项:set hive.exec.compress.output=true;set mapred.output.compress=tru转载 2015-10-09 10:50:30 · 1563 阅读 · 0 评论 -
hive rcfile存储格式
Hive的三种文件格式:TEXTFILE、SEQUENCEFILE、RCFILE中,TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把数据划分成N个row group,在row group中对每个列分别进行存储。另:Hive能支持自定义格式,详情见:Hive文件存储格式基于HDFS的行存储具备快速数据加载和动态负载的高适应能力,转载 2015-10-09 10:47:39 · 461 阅读 · 0 评论 -
Hive笔记之JOIN的左外链接和右外链接
一 为什么要用左外表或者右外表hive中对多个表联合操作时,总是按照从左到右顺序执行,.因为hive在对每行记录进行 操作时,它会尝试将较小的表缓存起来,然后扫描最大的那张表.因此需要保证在连续查询中的表的大小从左往右依次增加,否则当数据的量很大时,会大大降低hive的执行的性能.幸运的是用户并非总是将最大的表放置在查询语句的最后面,只需用左外表或者右外表加以说明即可,二原创 2015-10-08 20:29:10 · 3835 阅读 · 0 评论 -
hive优化方式和使用技巧
部分内容出处:http://www.atatech.org/article/detail/5617/0http://www.atatech.org/article/detail/4392/515 一.UDFS函数介绍1. 基本UDF(1)SHOWFUNCTIONS:这个用来熟悉未知函数。 DESCRIBE FUNCTION;(2)A IS NULL转载 2015-10-08 10:58:24 · 757 阅读 · 0 评论
分享