![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 71
hive 数据处理与分析
数据人阿多
一枚热爱技术的数据分析师,同时也热爱分享技术,欢迎大家多多交流,共同进步
展开
-
Hive中对相邻访问时间进行归并分组
对用户每天的访问次数进行统计时,需要对用户访问页面相邻的时间间隔小于30分钟归并为一组(算是一次),这样可以统计出用户每天的访问次数(忽略隔天问题)。这个问题如果用python来处理可能比较方便,可以循环遍历每行,进行两两之间的比较。利用Hive来处理数据,劣势就是不能循环遍历不够灵活,但是也能处理,只是过程相对比较复杂。原创 2023-05-24 17:08:18 · 203 阅读 · 0 评论 -
Hive 中把一行记录拆分为多行记录
业务场景:统计每个小时视频同时在线观看人数,因后台的业务数据是汇总之后的,只有开始时间、结束时间,没有每小时的详细日志数据,无法直接进行统计,所以需要对每条业务数据进行拆分,来统计每个小时的同时数当然,如果有详细的日志数据也是直接可以统计的,但是正常情况下,日志数据会非常大,如果每个用户每30秒会产生一条数据,那么每天会产生大量的数据,如此大量的数据,很难长期保存。原创 2023-08-04 19:56:16 · 547 阅读 · 0 评论 -
Hive中的常用函数
现阶段各个公司的数据慢慢的增多,很多数据都是存放在基于Hadoop的集群上,数据的查询一般使用的是hive,很多公司的数据中台也是使用hive来进行数据处理,本篇文章就来分享下在hive中常用的函数。...原创 2022-08-11 19:27:54 · 592 阅读 · 2 评论 -
Hive 中的各种常用set设置
hive 中的常用set语句设置原创 2022-11-24 12:54:29 · 2554 阅读 · 0 评论 -
Hive中各种日期格式转换方法总结
背景日期计算平时在业务取数时经常涉及到,但是数据库中经常存放着不同的日期格式,有的存放是时间戳、有的是字符串等,这时需要对其进行转换才能提取到准确的数据,这里介绍的均是hive里面的函数功能,以下内容均是业务的数据需求经常使用的部分时间戳unix时间戳是从1970年1月1日(UTC/GMT的午夜)开始所经过的秒数,不考虑闰秒,一般为10位的整数一个在线工具:https://tool.l...原创 2021-10-22 18:26:40 · 5080 阅读 · 0 评论 -
Hive HQL支持的2种查询语句风格,你喜欢哪一种?
背景在平时业务运营分析中经常会提取数据,也就是大家俗称的Sql Boy,表哥表姐,各大公司数据中台现在大部分用的都是基于Hadoop的分布式系统基础架构,用的比较多的有Hive数据仓库工具,数据分析师在数据查询时用的就是HQL,语法与Mysql有所不同,基本每天都会写大量的HQL语句,但你有试过哪些风格的写法呢?哪种风格的查询语句更容易理解呢?可能不同的人有不同的看法,下面展示具体的风格代码样式...原创 2021-08-27 11:10:16 · 195 阅读 · 0 评论 -
Hive 数据聚合成键值对时,根据值大小进行排序
hive 数据聚合成键值对时,根据值大小进行排序原创 2022-11-17 10:19:31 · 911 阅读 · 0 评论