Hive
文章平均质量分 89
不定期更新相关内容
大数据私房菜
这个作者很懒,什么都没留下…
展开
-
Hive高阶聚合函数
如果需要多维度做一些指标统计,数据量比较大的话,我们一般会选择olap引擎,比如kylin等,但是如果数据量不是很大的话,hive也是可以实现的。 create table wedw_tmp.hive_function_test_df ( province_name string comment '省份名称' ,city_name string comment '城市名称' ,area_...原创 2021-02-03 19:47:32 · 546 阅读 · 0 评论 -
面试官:说一下row_number等3大排名函数的区别
面试官:说一下row_number,rank和dense_rank的区别答:啥,我不知道呀,没用过面试官:好的,今天咱们就先到这吧,回去等通知!一 数据准备 create table wedw_tmp.t_province_people_cnt_info_df( province_name string COMMENT '省份' ,people_cnt int COMMENT '人口数' ) row format delim...原创 2021-02-03 19:46:39 · 455 阅读 · 0 评论 -
Hive/Spark小文件解决方案(企业级实战)
程序产生小文件的原因程序运行的结果最终落地有很多的小文件,产生的原因: 读取的数据源就是大量的小文件 动态分区插入数据,会产生大量的小文件,从而导致map数量剧增 Reduce/Task数量较多,最终落地的文件数量和Reduce/Task的个 数是一样的 小文件带来的影响 文件的数量决定了MapReduce/Spark中Mapper/Task数量,小文件越多,Mapper/Task的任务越多,每个Map...原创 2021-02-03 19:41:15 · 933 阅读 · 0 评论 -
Hive常见开窗函数(工作常用,面试常问)
一row_number() over()有如下数据: 江西,高安,100 江西,南昌,200 江西,丰城,100 江西,上高,80 江西,宜春,150 江西,九江,180 湖北,黄冈,130 湖北,武汉,210 湖北,宜昌,140 湖北,孝感,90 湖南,长沙,170 湖南,岳阳,120 湖南,怀化,100 需要查询出每个省下人数最多的2个市 create table..原创 2021-02-03 19:10:17 · 581 阅读 · 0 评论 -
一文带你走进HIVE的世界(2W字建议收藏)
HIVE简介1什么是HIVE hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为MapReduce任务运行,通过自己的SQL查询分析需要的内容,这套SQL简称Hive SQL,使不熟悉mapreduce的用户可以很方便地利用SQL语言查询、汇总和分析数据。2HIVE特点...原创 2020-11-19 14:32:24 · 377 阅读 · 0 评论 -
多值维度及交叉维度最佳解决方案
公众号:大数据私房菜1前言 正常情况下,维表和事实表之间是一对多的关系,维表中的一行记录会连接事实表中的多行记录,事实表中的一行记录在维度表中只能关联上一条记录,不会发生数据发散的现象 想法是美好的,但是事实总是不尽人意。因为现实中不但事实表和维度表之间存在多对多的关系,维度表和维度表之间也存在多对多的关系 这两种情况本质是相同的,但事实表和维度表之间的多对多关系少了唯一描述事实和维度组的中间维度。 对于这两种情况,一种称为...原创 2020-09-22 09:51:42 · 2066 阅读 · 0 评论 -
大厂高频面试题-连续登录问题
1背景 对于数据开发人员来说,手写sql是比较熟悉的了,就有这样一道题,面试时需要手写sql,这就是非常经典的连续登录问题,大厂小厂都爱问,这种题说简单也不简单,说难也不难,关键是要有思路。2真题hql统计连续登陆的三天及以上的用户这个问题可以扩展到很多相似的问题:连续几个月充值会员、连续天数有商品卖出、连续打车、连续逾期。数据提供 用户ID、登入日期 user01,2018-02-28 user01,2018-03-01 user01,2018-03-02 user...原创 2020-09-08 15:16:59 · 1090 阅读 · 0 评论 -
HIVE 日期加减函数及获取当前月份第一天trunc函数
1.日期增加函数date_add语法:date_add(string startdate, intdays)返回值: string说明: 返回开始日期startdate增加days天后的日期。如:select date_add('2015-05-15',1);+-------------+--+| _c0 |+-------------+--+| 2015-05-16 |+-------------+--+2.日期减少函数date_sub语法:...原创 2020-05-13 09:46:57 · 25646 阅读 · 0 评论 -
hive调优,每一个数据工程师必备技能
HIVE调优是一个很大的课题,涉及到hive本身的调优,hive底层的mapreduce计算引擎的调优,sql的调优,数据倾斜调优,小文件问题的调优,数据压缩的调优等以下提供一些主要的调优总结:1.数据的压缩与存储格式 hive底层的计算引擎是mapreduce,而mapreduce在运算时,免不了的就是要从hdfs中读取原始文件,然后在内部的map到r...原创 2020-04-24 14:55:23 · 642 阅读 · 0 评论 -
hive优化之小文件合并
文件数目过多,会给HDFS带来压力,并且会影响处理效率,可以通过合并Map和Reduce的结果文件来消除这样的影响:set hive.merge.mapfiles = true ##在 map only 的任务结束时合并小文件set hive.merge.mapredfiles = false ## true 时在 MapReduce 的任务结束时合并小文件set hive.merg...原创 2020-04-14 15:20:30 · 775 阅读 · 0 评论 -
hive之left join详解
目录一 表结构1.1 医生主表1.2 医生服务次数表二 left join查询1.1 on后面加and条件1.1.1 sql语句1.1.2 查询结果1.1.3 执行计划1.2 把条件放在where后面1.2.1 sql语句1.2.2 查询结果1.2.3 执行计划1.3 子查询1.3.1 sql语句1.3.2 查询结果1.3.3 执行计...原创 2019-05-21 21:57:01 · 29926 阅读 · 1 评论 -
Hive数据导出到指定路径的文件中
1.将hive表中的数据导入HDFS的文件insert overwrite directory '/root/access'row format delimited fields terminated by ','select * from user_access;2.将hive表中的数据导入到本地磁盘insert overwrite local directory '/roo...原创 2019-01-02 13:48:24 · 3430 阅读 · 1 评论 -
Hive常规操作(查看和操作分区,字段,注释)
查看分区describe formatted tableName partition(date_id="2019-01-07");查看table在hdfs上的存储路径及建表语句show create table tableName ;操作分区和表语句alter table tableName add IF NOT EXISTS partition(date_id="$year...原创 2019-01-07 10:46:33 · 7928 阅读 · 6 评论 -
hive开窗函数,分析函数
转自https://www.cnblogs.com/yejibigdata/p/6376409.html分析函数用于计算基于组的某种聚合值,它和聚合函数的不同之处是:对于每个组返回多行,而聚合函数对于每个组只返回一行。开窗函数指定了分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化drop table if exists student;create table s...转载 2019-03-04 13:28:02 · 810 阅读 · 0 评论 -
DECIMAL(16,4) 的含义
DECIMAL(16,4) 总共能存16位数字,末尾4位是小数(小数点不算在长度内)原创 2019-06-25 11:02:03 · 17526 阅读 · 0 评论 -
hive基础学习
目录1.Hive基本概念2.Hive架构3.Hive安装部署4.Hive使用方式5.Hive建库建表与数据导入6.hive查询语法7.hive函数使用8 综合查询案例1.Hive基本概念1.1 Hive简介1.1.1 什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。1...原创 2018-08-05 12:40:27 · 1323 阅读 · 0 评论