hive
文章平均质量分 54
zhuiqiuuuu
这个作者很懒,什么都没留下…
展开
-
hive 参数优化
SET hive.exec.dynamic.partition = true;SET hive.exec.dynamic.partition.mode = nonstrict;SET mapreduce.job.running.reduce.limit = 800;SET mapreduce.job.running.map.limit = 1000;SET mapreduce.job.reduce.slowstart.completedmaps = 1.0;SET mapred.output.co原创 2021-06-18 19:50:44 · 799 阅读 · 1 评论 -
hive 频繁gc 参数配置
set mapreduce.map.memory.mb=6144;set mapreduce.map.java.opts=-Xmx6144M;set mapreduce.map.cpu.vcores = 4;set mapreduce.reduce.memory.mb=8192;set mapreduce.reduce.java.opts=-Xmx6144M;set mapreduce.reduce.cpu.vcores = 8;原创 2021-06-18 18:52:34 · 1277 阅读 · 0 评论 -
hive 删除多个分区
ALTER TABLE table_name drop if exists partition (dt='2020-03-23' , hh_mm_ss>='24:00:00')原创 2021-05-19 13:29:38 · 1863 阅读 · 1 评论 -
大表join小表优化
大表join小表优化 和join相关的优化主要分为mapjoin可以解决的优化(即大表join小表)和mapjoin无法解决的优化(即大表join大表),前者相对容易解决,后者较难,比较麻烦。 首先介绍大表join小表优化。以销售明细表为例来说明大表join小表的场景。 假如供应商进行评级,比如(五星、四星、三星、二星、一星),此时因为人员希望能够分析各供应商星级的每天销售情况及其占比。 开发人员一般会写出如下SQL: selects..转载 2021-04-26 11:55:03 · 2673 阅读 · 0 评论 -
hive 之with....as的用法
hive 之with....as的用法1.作用 with 。。as需要定义一个sql片段,会将这个片段产生的结果集保存在内存中,后续的sql均可以访问这个结果集,作用与视图或临时表类似.2语法with...as...必须和其他sql一起使用(可以定义一个with但在后续语句中不使用他) with...as...是一次性的,是临时的...原创 2021-04-26 11:43:23 · 547 阅读 · 0 评论 -
【数据仓库】——星型模型和雪花模型
一、星型模型当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型。星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,如在地域维度表中,存在国家A 省B的城市C以及国家A省B的城市D两条记录,那么国家A和省B的信息分别存储了两次,即存在冗余。二、雪花模型当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的转载 2021-04-26 11:26:56 · 1977 阅读 · 0 评论 -
查询语句中select from where group by having order by的执行顺序
查询语句中select from where group by having order by的执行顺序1.查询中用到的关键词主要包含六个,并且他们的顺序依次为select--from--where--group by--having--order by其中select和from是必须的,其他关键词是可选的,这六个关键词的执行顺序与sql语句的书写顺序并不是一样的,而是按照下面的顺序来执行from--where--group by--having--select--o...转载 2020-11-26 16:42:17 · 346 阅读 · 0 评论 -
hive join的类型和用法
关键字:Hive Join、Hive LEFT|RIGTH|FULL OUTER JOIN、Hive LEFT SEMI JOIN、Hive Cross JoinHive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联,还支持LEFT SEMI JOIN和CROSS JOIN,但这两种JOIN类型也可以用前面的代替。注意:Hive中Join的关联键必须在ON ()中指定,不能在Wher...转载 2018-06-26 17:04:12 · 878 阅读 · 0 评论 -
distribute by sort by
一:order byorder by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。关于order by的详细介绍请参考这篇文章:Hive Order by操作。二:sort bysort by不是全局排序,其在数据进入reducer前完成排序,因此,如果用sort by进行排序,并且设置...转载 2018-06-26 16:30:41 · 8569 阅读 · 0 评论 -
hive-同一份数据多种处理(节省时间的写法)
hive 提供了一个独特的语法,可以从一个数据源产生多个数据聚合,无需每次聚合都要重新扫描一次。对于大的数据输入集来说,可优化节约非常可观的时间。例子: hive > from table1 > INSERT OVERWRITE TABLE2 select * where action='xx1' > INS转载 2018-01-26 11:52:33 · 1398 阅读 · 0 评论 -
hive函数—-集合统计函数
hive函数—-集合统计函数集合统计函数1. 个数统计函数: count语法: count(*), count(expr), count(DISTINCT expr[, expr_.])返回值: int说明: count(*)统计检索出的行的个数,包括NULL值的行;count(expr)返回指定字段的非空值的个数;c转载 2018-01-17 18:45:41 · 1847 阅读 · 0 评论 -
sum over partition by 的用法
--用法详解0、select * from wmg_test; ---测试数据 1、select v1,v2,sum(v2) over(order by v2) as sum --按照 v2排序,累计n+n-1+....+1from wmg_test;2、select v1,v2,sum(v2) o转载 2018-01-17 18:43:56 · 54260 阅读 · 11 评论 -
hive常用命令
hive常用命令#创建新表hive> CREATE TABLE t_hive (a int, b int, c int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';#导入数据t_hive.txt到t_hive表hive> LOAD DATA LOCAL INPATH '/home/cos/demo/t_hive.t转载 2017-06-01 16:10:18 · 787 阅读 · 0 评论 -
hive中的增删改如何实现
转载:http://blog.csdn.net/yonghutwo/article/details/39897845Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。由于 Hive 是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。因此,Hive转载 2017-06-02 18:25:21 · 2004 阅读 · 0 评论 -
Hive.GROUPING SETS
如果说聚合函数(Simple UDAF / Generic UDAF)是HQL聚合数据查询或分析的中枢处理器,那GROUP BY可以说是聚合函数的神经了,GROUP BY收集和传递材料,然后交给聚合函数们去处理。这些材料的组织形式显得尤为重要,它们表达着分析者想要的观察维度或视角,管理着聚合函数们的操作对象。 而分析者经常想要在一次分析中从多个维度去获得分析数据,对包含多个维度转载 2017-10-10 21:10:59 · 394 阅读 · 0 评论 -
hive 动态分区
前面文章介绍了Hive中是支持分区的。关系型数据库(如Oracle)中,对分区表Insert数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,使用Hive的动态分区,需要进行相应的配置。先看一个应用场景,源表t_lxw1234的数据如下: SELECT day,u转载 2017-10-27 15:33:59 · 290 阅读 · 0 评论 -
hive分区表增加字段会导致新增字段无法显示值的BUG
转载:http://blog.csdn.net/xiao_jun_0820/article/details/45560591最近在查hive版本问题,发现在hive1.1.0和hive1.2.1上,分区表新增字段后新增字段值为空的情况。网上查了资料,提供了两种解决办法:1. 修改hive元数据SDS表的CD_ID字段,原因是修改表结构后,元数据库中的SDS中该表转载 2017-09-29 17:35:02 · 1313 阅读 · 0 评论 -
Hive 的collect_set使用详解
转载:http://blog.csdn.net/liyantianmin/article/details/48262109有这么一需求,在hive中求出一个数据表中在某天内首次登陆的人;可以借助collect_set来处理sql:[html] view plain copy print?select count(a.id)转载 2017-10-13 09:32:40 · 2567 阅读 · 0 评论 -
插入hive表的几种写法
1.sql="" insert overwrite table app.app_od_info partition(dt='{startT}') select so_no,so_num from table1"""spark.sql(sql)2.sql=""" select so_no,so_num,原创 2017-11-03 19:35:59 · 3167 阅读 · 0 评论 -
hive正则表达式详解
hive中的正则表达式还是很强大的。数据工作者平时也离不开正则表达式。对此,特意做了个hive正则表达式的小结。所有代码都经过亲测,正常运行。1.regexp语法: A REGEXP B 操作类型: strings 描述: 功能与RLIKE相同select count(*) from olap_b_dw_hotelorder_f where create_date_wi转载 2017-12-20 14:54:22 · 1942 阅读 · 0 评论 -
hive 中窗口函数row_number,rank,dense_ran,ntile分析函数的用法
ive中一般取top n时,row_number(),rank,dense_ran()这三个函数就派上用场了,先简单说下这三函数都是排名的,不过呢还有点细微的区别。通过代码运行结果一看就明白了。示例数据:12345678910111 a转载 2018-01-25 15:51:07 · 805 阅读 · 0 评论 -
spark concat_ws,collect_set
hive > select product_id, concat_ws('_',collect_set(promotion_id)) as promotion_ids from product_promotion group by product_id;OK5112 960024_960025_960026_960027_9600285113 960043_960044_960045_960原创 2017-05-30 11:19:04 · 7182 阅读 · 0 评论