大数据开发
文章平均质量分 91
海燕技术栈
既然巅峰留不住,那就重走来时路
展开
-
记一次复杂左连接的优化之路
将连接条件从ON子句移到WHERE子句可能会导致不同的结果,并且可能影响执行效率。在你的查询中,ON子句中包含了与地理坐标范围相关的条件,而这些条件用于连接两个表。如果将这些条件移到WHERE子句,连接仍然会发生,但是条件将会在连接之后进行过滤。这可能导致不同的行匹配,并且对于左连接,可能会有一些差异。如果某些连接条件对于结果的形成至关重要,将其移到WHERE子句可能不会得到期望的结果。至于执行效率,这取决于具体的数据和查询计划。原创 2024-01-28 11:14:34 · 733 阅读 · 0 评论 -
大数据集群基础之Yarn的运维
在使用YARN(Yet Another Resource Negotiator)监控Spark任务时,我们可以通过YARN的资源管理器(ResourceManager)Web界面来查看Spark应用程序的状态、资源使用情况和任务执行情况。YARN会持续监控应用程序的容器,跟踪它们的资源使用情况。YARN的资源调度器使用监控信息来评估应用程序的资源需求,并基于集群中可用的资源情况做出决策。在Spark中,YARN的主要作用是协调和管理集群上的资源,以确保Spark应用程序能够有效地利用集群中的计算资源。原创 2024-01-28 11:14:00 · 1063 阅读 · 0 评论 -
hive中的函数
支持的数据库系统包括 Oracle、IBM DB2、Teradata、Microsoft SQL Server、PostgreSQL、MySQL 和 Netezza。| ‘a’ %%||%% ‘b’ %%||%% ‘c’ | ‘abc’ | 字符串 || ‘a’ %%||%% NULL %%||%% ‘c’ | ‘ac’ | 字符串 || ‘a’ %%||%% 1 %%||%% ‘c’ | ‘a1c’ | 字符串 |操作的结果始终为字符串。| NULL %%||%% NULL | NULL | 字符串 |原创 2023-09-13 22:00:22 · 454 阅读 · 0 评论 -
hive中的索引
当你执行连接操作(如INNER JOIN、LEFT JOIN等)时,如果连接的列有索引,可以显著提高查询性能,因为索引可以减少数据的扫描和比较次数。:索引还可以用于加速范围查询,例如,当你需要在一个范围内检索数据时,可以使用索引来快速定位匹配的行。位图索引是基于位运算的索引,可以用于快速过滤具有有限取值范围的列。子句来查找某个特定的值时,如果有适当的索引,Hive可以快速地定位到匹配的行。:如果你在查询中使用子查询,索引可以提高子查询的性能,从而加速整个查询的执行。是用于存储索引数据的目录。原创 2023-09-11 21:56:38 · 1020 阅读 · 0 评论 -
hive的语言元素
TIMESTAMP字面量允许使用’YYYY-MM-DD HH:MI:SS.FFF’或’YYYY-MM-DD-HH.MI.SS.FFF’格式的字符串来指定一个时间戳常量。%NOTFOUND 在从游标获取数据之前返回NULL,在最后一次获取时返回//false//,否则返回//true//。%FOUND 在从游标获取数据之前返回NULL,在最后一次获取时返回//true//,否则返回//false//。%ISOPEN 如果游标是打开状态,则返回//true//,否则返回//false//。原创 2023-09-09 11:50:41 · 267 阅读 · 0 评论 -
map-reduce中的组件
Combiner 是 MapReduce 中的一种优化机制,可以提高 Shuffle 的性能。Combiner 的使用需要注意 Combiner 的输出数据格式、Combiner 的计算逻辑以及 Combiner 的适用场景。ReducerReducer 负责对 Map 阶段输出的分组数据进行聚合。Reducer 是 MapReduce 作业中的用户自定义逻辑,负责将 Map 任务的输出数据聚合成最终结果。对 Map 任务的输出数据进行聚合。将聚合后的结果写入输出文件。原创 2023-09-09 11:11:17 · 835 阅读 · 0 评论 -
map-reduce执行过程
使用过滤器来过滤掉不必要的数据。使用压缩算法来压缩数据。使用合并分组来减少分组数。使用 Hadoop 的 DistributedCache 机制来缓存常用的数据。使用 Apache Spark 等更高效的计算框架来替代 MapReduce。总体而言,Shuffle 是 MapReduce 中的关键环节,它决定了 MapReduce 的性能。通过优化 Shuffle,可以提高 MapReduce 的性能。原创 2023-09-09 09:14:58 · 1104 阅读 · 0 评论