![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 70
xingchensuiyue
这个作者很懒,什么都没留下…
展开
-
分组累加/级联求和
1. 分组累加eg:select sum() over(partitionby...orderby...)select id,[group],num,sum(num) over(partition by [group] order by id) from testaagroup by id,[group],num2. 级联求和select A.username,A.month,max(A.access_time) access_time,sum(B.access_time) accum原创 2022-05-31 16:10:04 · 553 阅读 · 0 评论 -
sum over()用法,以及与group by的区别
1、sum over()使用方法sum(col1) over(partition by col2 order by col3 )以上的函数能够理解为:按col2 进行分组(partition ),每组以col3 进行排序(order),并进行 连续 加总(sum)表a,内容例如以下:B C D02 02 102 03 202 04 302 05 402 01 502 06 602 07 702 03 502 02 1202 01 202 01 23运行:SELECT原创 2022-04-24 15:28:51 · 5399 阅读 · 0 评论 -
记录一个Hive的一个报错
hive return code 1报错原创 2021-12-15 14:40:36 · 2719 阅读 · 6 评论 -
Hadoop中不起眼的小文件
在使用Hadoop过程中,小文件是一种比较常见的挑战,如果不小心处理,可能会带来一系列的问题。HDFS是为了存储和处理大数据集(M以上)而开发的,大量小文件会导致Namenode内存利用率和RPC调用效率低下,block扫描吞吐量下降,应用层性能降低。通过本文,我们将定义小文件存储的问题,并探讨如何对小文件进行治理。1 什么是小文件小文件是指比HDFS默认的block大小(默认配置为128MB,网易大数据集群配置为256M)明显小的文件。需要注意的是,在HDFS上有一些小文件是不可避免的。这些文件.原创 2021-05-26 23:25:52 · 342 阅读 · 4 评论 -
Hive常见优化
1 表连接优化将小表放在前面,Hive假定查询中最后的一个表是大表。它会将其它表缓存起来,然后扫描最后那个表。因此通常需要将小表放前面,或者标记哪张表是大表:/streamtable(table_name) /使用相同的连接键当对3个或者更多个表进行join连接时,如果每个on子句都使用相同的连接键的话,那么只会产生一个MapReduce job。尽量尽早地过滤数据减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段。尽量原子化操作尽量避免一个SQL包含复杂逻辑,可以使用中间原创 2021-05-17 20:42:55 · 713 阅读 · 8 评论 -
Hive数仓建表时选用ORC还是PARQUET,压缩选Lzo还是snappy?
目录1 文件存储格式1.1 ORC1.1.1 ORC的存储结构1.1.2 关于ORC的hive配置1.2 Parquet1.2.1 Parquet的存储结构1.2.2 Parquet的表配置属性1.3 ORC和Parquet对比2 压缩方式3 存储和压缩结合该如何选择?3.1 ORC格式存储,Snappy压缩3.2 Parquet格式存储,Lzo压缩3.3 Parquet格式存储,Snappy压缩1 文件存储格式从Hive官网得知,Apache Hive支持Apache Hadoop中使用的几种熟悉的文原创 2021-05-11 22:33:18 · 1024 阅读 · 1 评论 -
Hive 中常见的order by distribute by等区别详解
1 Order Byhive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数据多少,不管文件多少,都启用一个reduce进行处理。如果指定了hive.mapred.mode=strict(默认值是nonstrict),这时就必须指定limit来限制输出条数,原因是:所有的数据都会在同一个reducer端进行,数据量大的情况下可能不能出结果,那么在这样的严格模式下,必须指定输出的条数。原创 2020-11-08 23:20:03 · 634 阅读 · 0 评论 -
大数据框架之Hive详解
目录1.Hive 的基本概念1.1 Hive是什么?1.2 Hive的优缺点1.2.1 优点1.2.2 缺点1.3 Hive 架构原理1.4 Hive 和数据库比较1.5 命令1.Hive 的基本概念1.1 Hive是什么?Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。本质是:将 HQL 转化成 MapReduce 程序1)Hive 处理的数据存储在 H原创 2020-10-12 19:20:22 · 728 阅读 · 0 评论