![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 79
独影月下酌酒
这个作者很懒,什么都没留下…
展开
-
Hive中count(distinct)优化
hive.groupby.skewindata 对 count(distinct) 的优化是有限制的,当 hive.groupby.skewindata = true 时,SQL只能对一个列进行 count(distinct)其实这很容易理解,在刚刚的手动优化过程中,能够很容易发现,这个方法不能同时对多个列进行 去重+计数 得出各自的 count(distinct) 值主要原因:无法在某一个维度里,同时对多个列进行去重。转载 2024-03-15 23:35:11 · 376 阅读 · 0 评论 -
Hive中的explode函数、posexplode函数与later view函数
在离线数仓处理通过HQL业务数据时,经常会遇到行转列或者列转行之类的操作,就像concat_ws之类的函数被广泛使用,今天这个也是经常要使用的拓展方法。原创 2024-03-15 22:54:27 · 3175 阅读 · 0 评论 -
MapReduce的原理分析
MapReduce的思想核心是“分而治之,先分再合”,适用于大量复杂任务处理场景(大规模数据处理场景)。map阶段(分):如果任何可以拆分并且没有依赖,那么就把复杂的任务拆分成小任务,拆分成小任务之后,可以并行计算,提高处理效率。reduce阶段(合):把map阶段的各个局部结果进行全局汇总,得到最终的结果生活中的MapReduce案例:统计图书馆的书籍总数“Map”:你数1号书架,我数2号书架。我们人越多,数书就更快。“Reduce”:我们到一起,把所有人的统计数加在一起。原创 2024-03-15 15:14:29 · 1205 阅读 · 1 评论 -
Hive中的CONCAT、CONCAT_WS与COLLECT_SET函数
concat用于连接字符串。concat_ws用于按照指定的分隔符连接字符串。与group by和concat_ws一起使用可以实现"列转行。原创 2024-03-14 17:43:34 · 1934 阅读 · 0 评论 -
Hive中的NVL函数与COALESCE函数
说明: COALESCE是一个函数, (v1, v2, …,vn)依次参考各参数表达式,遇到非null值即停止并返回该值。如果所有的表达式都是空值,最终将返回一个空值。Hive SQL 中的一种聚合函数,它可以返回第一个非空值。功能:如果value为NULL,则NVL函数返回。如果两个参数都为NULL ,则返回NULL。的数据赋值,它的格式是。原创 2024-03-14 12:56:05 · 3037 阅读 · 0 评论 -
Hive中UNION ALL和UNION的区别
Hive官方提供了一种联合查询的语法,原名为Union Syntax,用于联合两个表的记录进行查询,此处的联合和join是不同的,join是将两个表的字段拼接到一起,而union是将两个表的记录拼接在一起。换言之, join是用于左右拼接,而union是用于上下拼接。联合查询方式UNIONUNION ALL对重复结果的处理筛选掉重复的结果不会去除重复记录对排序的处理将两个结果合并后并返回会按照字段的顺序进行排序效率快慢总述不去重不排序去重并排序。原创 2024-03-08 13:24:46 · 1233 阅读 · 0 评论 -
Hive的性能优化
Hive 作为大数据领域常用的数据仓库组件,在设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、Job或I/O过多、MapReduce分配不合理等等。对 Hive 的调优既包含 Hive 的建表设计方面,对HQL 语句本身的优化,也包含 Hive 配置参数和底层引擎 MapReduce 方面的调整。总之,Hive调优的作用:在保证业务结果不变的前提下,降低资源的使用量,减少任务的执行时间。原创 2024-03-07 22:34:26 · 1001 阅读 · 0 评论 -
Hadoop面试题
第二个阶段是由 ApplicationMaster 创建应用程序,为它申请资源,并监控它的整个运行过程,直到运行完成。(1)客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。(3)DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。(2)挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。原创 2023-07-07 18:19:04 · 1947 阅读 · 0 评论