关于hivesql转为spakrsql中的差异

最新推荐文章于 2024-04-26 18:40:55 发布

丘山水每十甫寸

最新推荐文章于 2024-04-26 18:40:55 发布

阅读量154

点赞数 1

文章标签：数据库 mysql

本文链接：https://blog.csdn.net/weixin_72185938/article/details/130402689

版权

hivesql中写法：count（distinct 字段名） over（partition by 字段名） ->根据某些字段分区，去重并统计某个字段的个数

saprksql中写法：size（collect_set（字段名）over（partition by 字段名）） ->意思与hive相同，

因为saprksql中不支持count（）over（partition by）的情况下额外加一个distinct，所以转化为collect_set，这个函数本身自带去重效果，size得出集合大小，侧面得出统计值

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

丘山水每十甫寸

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

SQL进阶技巧：如何分析每个用户的受欢迎程度【Facebook面试题】

石榴姐yyds

08-10

1193

本题为Facebook面试题，本题的难点在于第一步分析的结果上，第一步分析结果的得出需要我们根据题意将可能结果等列出，这样我们自然而然就会想到union的方法。针对本题给出了两种方法一种采用常规思路关联的方法给出结果，一种采用窗口函数形式分析出结果，窗口函数分析方法在形式上更简洁一些。本题在用窗口函数分析结果时候采用size(collect_set())这一技巧，分析去重后的个数，在低版本的hive中如1.1是不支持count(distinct XXX) over()这种形式的，这一技巧需要注意和掌握。

【Hive进阶】-- Hive SQL、Spark SQL和 Hive on Spark SQL

欢迎来到我的博客，一起探索代码里的世界！

03-13

2936

Hive由Facebook开发，用于解决海量结构化日志的数据统计，于2008年贡献给 Apache 基金会。Hive是基于Hadoop的数据仓库工具，可以将结构化数据映射为一张表，提供类似SQL语句查询功能本质：将Hive SQL转化成MapReduce程序。Spark SQL主要用于结构型数据处理，它的前身为Shark，在Spark 1.3.0版本后才成长为正式版，可以彻底摆脱之前Shark必须依赖HIVE的局面。

参与评论您还未登录，请先登录后发表或查看评论

Hive SQL迁移Spark SQL在滴滴的实践

DiDi_Tech的博客

01-25

1547

桔妹导读：在滴滴SQL任务从Hive迁移到Spark后，Spark SQL任务占比提升至85%，任务运行时间节省40%，运行任务需要的计算资源节省21%，内存资源节省49%。在迁移过程中...

Hive SQL迁移 Spark SQL 在网易传媒的实践

过往记忆大数据

10-19

1112

引言：把基于mapreduce的离线hiveSQL任务迁移到sparkSQL，不但能大幅缩短任务运行时间，还能节省不少计算资源。最近我们也把组内2000左右的hivesql任务迁移到了sp...

从Hive平滑过渡到Spark SQL

m0_56525833的博客

10-24

909

从hive过渡到SparkSQL

sql sum条件求和_Hive中使用over()实现累积求和和滑动求和

weixin_39634132的博客

12-06

4278

上一篇咱们介绍了三个常用的排序函数row_number(),rank()和dense_rank()。这三个函数需要配合开窗函数over()来实现排序功能。但over()的用法远不止于此，本文咱们来介绍如何实现累计求和和滑动求和。1、数据介绍咱们有三列数据，分别是员工的姓名、月份和销售额：接下来，咱们实现两个主要的功能，对每个员工的销售业绩的累积求和以及滑动求和(每个月计算其最近三个月的总...

Hive SQL语句操作

需要远程指导仿真实验、代码有问题的，请后台私信或者关注公众号

06-25

2216

本实验任务主要完成基于Hive环境执行一些常用的Hive SQL语句操作，通过完成本实验任务，要求学生熟练掌握Hive SQL的常用语句，掌握Hive的基础和操作。掌握Hive的数据类型掌握hive的数据类型的使用掌握hive的DDL语句的操作本次环境是：Ubuntu16.04+hadoop-2.7.3.+apache-hive-1.2.2-bin数据量巨大且保存时间长；在大量数据上进行复杂的批量运算；数据在计算之前已经完全到位，不会发生变化；能够方便的查询批量计算的结果；不像在线计算当

HiveSQL中位数算法

double1_的博客

05-14

1664

HiveSQL中位数算法以Stud_table表为例，计算不同班的成绩中位数方法一 1、通过使用row_number窗口函数插入两列，分别对成绩升序、降序排序（asc_num、desc_num） 2、找出符合asc_num in (desc_num,desc_num-1,desc_num+1)的成绩 3、对成绩求均值代码上面语句执行结果很明显A班的中位数计算错误，这是因为该方法只适用于无重复数值的样本，如果有重复数值（例如A班有多个重复的分数）则会在降序过程中出现序号不一致的情况。例如该例中

大数据面试之Hive SQL经典面试题

热门推荐

卡奥斯道的博客

09-30

1万+

这个函数的大致意思是：在分组内求去重后的数量为什么不用count(distinct )，不支持原因例子：数据准备： SELECT '1' as id ,'201808' as m,'a' as k union all SELECT '2' as id ,'201808' as m,'a' as k union all SELECT '1' as id ,'201809' as m,'...

HIVE中窗口函数

Miracle.Zhao的博客

04-10

4016

什么是窗口函数窗口函数是用于分析用的一类函数，要理解窗口函数要先从聚合函数说起。大家都知道聚合函数是将某列中多行的值合并为一行，比如sum、count等。而窗口函数则可以在本行内做运算，得到多行的结果，即每一行对应一行的值。通用的窗口函数可以用下面的语法来概括： Function() Over (Partition By Column1，Column2，Order By Column3) 窗口函数又分为以下三类：聚合型窗口函数分析型窗口函数 * 取值型窗口函数接下来我们将通过几个实际

spark实现用窗口函数进行去重计数的功能

longwei92的博客

06-27

2400

df.withColumn("new_col_name", size(collect_set($"need_count_col_name").over(Window.partitionBy($"window_col_name")))) //同理在hive中也可以采用这种利用size和collect_set的形式实现用窗口函数进行去重计数的功能 ...

[hive]collect_set排序问题

胖胖的博客

06-21

5942

即：collect_set(a) over(partition by b order by c) 集合中的数据a会按照 c列的顺序按行累加。本身也是需要按照指标进行去重的，在这里我们选择最长的一条进行去重，就可以解决问题了，最长的那条涵盖了所有的数据。第二列：该指标下的所有地区名称,按照地区代码顺序排序，按照";"进行分割，且该字段不为空时，末尾追加";第三列：该指标下所有的年份,按字母顺序排序，按照";在over中按照地区代码进行排序，然后在collect_set中把排好顺序的数据收集起来。

【数据库】常用SQL语句

weixin_49578351的博客

02-10

445

常用SQL语句汇总,非常实用

HIVE SQL tricks

weixin_45759139的博客

02-10

266

HIVE SQL tricks

SQL之concat()、collect_set()、collect_list()和concat_ws()用法

weixin_48272780的博客

12-08

9763

sort_array(e: column, asc: boolean)将array中元素排序(自然排序)，默认asc。将collect_set无序集合，改成collect_list或sort_array进行排序。函数在连接字符串的时候，只要其中一个是NULL，那么将返回NULL。不同的是collect_list不去重而collect_set去重。的时候，只要有一个字符串不是NULL，就不会返回NULL。他们都是将分组中的某列转为一个数组返回，实际结果，class合并后并不是有序。

巧用Hive自带函数进行多字段分别去重计数统计

机器学习算法

11-12

1万+

巧用Hive自带函数进行多字段分别去重计数统计 1-group by 和 distinct 大前提：大表统计能使用group by就不要使用distinct！！尤其是在数据量非常大的时候，distinct会将所有的统计信息加载到一个reducer里取执行，这就是所谓的数据倾斜。而group by会把相同key的记录放到一个reducer区计算，因此效率会提高很多。业务需要对一个分区内一百亿...

同一个sql 在Hive和spark-sql 跑出结果不一样记录

xw514124202的博客

10-23

4412

表Schema hive&gt; desc gdm.dim_category; name string 分类名称 org_code string ...

Hive SQL性能优化：MapReduce阶段策略

"数据仓库中的SQL性能优化（Hive篇）" 在数据仓库中，SQL性能优化对于提升大数据处理效率至关重要，特别是在使用Hive这样的分布式数据处理框架时。Hive基于MapReduce运算模型，其查询执行涉及到多个MapReduce作业，...