![](https://img-blog.csdnimg.cn/2a2a8661decf417b991f1067e763eea5.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hive
文章平均质量分 67
Hive学习
Dataer__
这个作者很懒,什么都没留下…
展开
-
10. hive中随机抽样数据:order by limit 对比 distribute by rand limit
在Hive中随机抽取一部分数据时,选择使用 ORDER BY LIMIT 还是 DISTRIBUTE BY RAND() 配合 LIMIT 取决于具体的应用场景和需求。在实际应用中,需要根据。来选择最合适的方法。原创 2024-05-09 17:10:22 · 552 阅读 · 2 评论 -
9. 学习distribute by rand()
先对rand取哈希然后对reduce数目(500)取余,保证了每条数据分配到所有reducer的可能性是相等的,这样reducer处理的数据量就是均匀的,在数据量比较大的情况下,每个reducer产生的文件数为动态分区的个数,产生的文件总个数500。1)负载均衡:当数据量非常大,并且需要在多个reduce任务之间平衡负载时,使用 DISTRIBUTE BY RAND() 可以随机(近似均匀)分配数据,从而避免某些reduce任务过载而其他任务却空闲的情况。通过随机分布数据,可以减少数据倾斜的影响。原创 2024-05-09 15:05:39 · 1279 阅读 · 2 评论 -
8. 如何快速地把 Hive 中的数据导入 ClickHouse
Seatunnel 拥有着非常丰富的插件,支持从Kafka、HDFS、Kudu中读取数据,进行各种各样的数据处理,并将结果写入ClickHouse、Elasticsearch或者Kafka中。其中 pre_sql 是从Hive中读取数据SQL, table_name 是将读取后的数据,注册成为Spark中临时表的表名,可为任意字段。假定我们的数据已经存储在Hive中,我们需要读取Hive表中的数据并筛选出我们关心的字段,或者对字段进行转换,最后将对应的字段写入ClickHouse的表中。转载 2024-01-29 11:28:26 · 354 阅读 · 1 评论 -
7. Hive解析JSON字符串、JSON数组
说明:将 字符串A中 符合 java正则表达式B 的部分替换为C。注意,在有些情况下要使用转义字符,类似oracle中的regexp_replace函数。解析出其中的website、name。当我们数据的结构如下,我们想要获取的数据为,原创 2023-08-28 22:51:40 · 3282 阅读 · 0 评论 -
6. Hive中的 explode / posexplode 和 lateral view
lateral view 是 Hive 中提供给 UDTF 函数使用的,它可以解决使用 UDTF 后不能添加额外 select 列的问题。lateral view 会将 UDTF 生成的结果放到一个虚拟表中,然后这个虚拟表会和。将 arrary 或 map 结构数据拆分成多行,并返回拆分后的每个元素。进行 join 来达到关联 UDTF 外的 select 字段的目的。注意:这两个值需要在 as 之后用括号括起来然后以逗号分隔。拆分成多行,并返回拆分后的。将 arrary 数据。(不能用于map数据)原创 2023-07-09 15:51:29 · 1288 阅读 · 0 评论 -
5. Hive的三种去重方法
distinct 不能单独用于指定某一列,必须放在 select 中所有字段的最前面,否则会报错。会先按照指定的列进行分组,然后在每个分组内进行聚合操作,这样可以减少比较的数据量。,并不是只对紧跟其后的 column1 去重。实现去重时,它们的效率会受到多个因素的影响,包括数据规模、数据分布、查询条件等。distinct 对 NULL 是不进行过滤的,即返回的结果中包含NULL值。通常用于复杂的去重需求,它能够在查询结果中为每一行生成一个唯一的序号。,并不是只对紧跟其后的 colA 去重。原创 2023-07-03 14:25:28 · 5710 阅读 · 0 评论 -
4. count(*) 、count(1) 、count(字段) 区别
count() 是一个聚合函数,函数的参数不仅可以是字段名,也可以是其他任意表达式,该函数作用是。count(distinct 字段) 是在 count(字段) 基础上滤重。count(*)、 count(1) 都是检索表中所有记录行的数目,不论其是否。count(*) = count(1) > count(字段)count(字段) 是检索表中该字段的。,不统计该字段为 null 的记录。包含null值,结果都是一样的。哪种 count 性能最好?count( ) 是什么?原创 2023-06-29 20:08:15 · 199 阅读 · 0 评论 -
3. A Visual Explanation of SQL Joins
A Visual Explanation of SQL Joins转载 2023-02-19 10:39:34 · 57 阅读 · 0 评论 -
2. Hive常用函数
Hive常用函数原创 2023-02-13 18:55:25 · 87 阅读 · 0 评论 -
1. 解决Hive分区小文件问题的一种思路
1. 解决Hive分区小文件问题的一种思路原创 2023-02-05 10:33:16 · 235 阅读 · 0 评论