- 博客(169)
- 收藏
- 关注
原创 大数据学习(117)-kafka
Apache Kafka是分布式发布-订阅消息系统,在 kafka官网上对 kafka 的定义:一个分布式发布-订阅消息传递系统。它最初由LinkedIn公司开发,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。几种分布式系统消息系统的对比:推荐相关文章:各消息队列对比,Kafka深度解析,众人推荐,精彩好文!
2025-04-30 16:05:20
1009
原创 大数据学习(115)-hive与impala
🍋🍋🍋🍋简介:Impala和Hive都是大数据领域中广泛使用的查询工具,它们在功能、性能和适用场景上存在一些差异。本文将深入比较这两者,并探讨Impala的优缺点。
2025-04-29 16:47:21
1079
原创 大数据学习(112)-HIVE中的窗口函数
在 Apache Hive 中,窗口函数(Window Functions)是一类强大的 SQL 函数,用于对查询结果集的一个“窗口”或“分组”进行计算,而不减少结果集的行数。Hive 中的窗口函数为数据分析提供了强大的工具,可以用于排名、聚合、累积计算、前后值比较等操作。子句定义了窗口的范围和排序方式。
2025-04-22 15:47:53
536
原创 大数据学习(111)-group by与partition by
是 SQL 中用于数据分组或划分的两个不同概念,尽管它们在某些场景下看起来可能相似,但它们的目的和用法有显著的区别。
2025-04-22 15:17:38
336
原创 大数据学习(110)CTE类型的SQL
公用表表达式(CTE)其实是SQL语句中的“临时表”,定义后可以在同一个查询中多次使用。相比传统子查询,CTE让代码更简洁、结构更清晰。CTE的出现就是为了提升SQL查询的可读性,特别是对于复杂查询场景,CTE简直是救世主!🙏简而言之,CTE是SQL代码中的“局部变量”,你可以用它来暂时存储中间结果,就像在打游戏时暂存进度一样。🎨 CTE的语法与结构-- 这里放查询逻辑基本语法分为三步:使用关键字WITH引入CTE。起个名字,比如cte_name,方便后续调用。
2025-04-22 14:52:47
720
原创 大数据学习(109)-Impala 和 Hive 之间的 SQL 差异
有关 Impala 中授权的详细信息,包括如何使用存储在元存储数据库中的权限从原始基于策略文件的权限模型切换到 Sentry 服务,请参阅。由于 Impala 和 Hive 共享同一个元存储数据库,并且它们的表经常互换使用,因此以下部分详细介绍了 Impala 和 Hive 之间的差异。本节介绍的实例 Impala 和 Hive 具有相似的功能,有时包含相同的语法,但这些功能的运行时语义存在差异。Impala 支持用 C++ 编写的高性能 UDF,以及重用一些基于 Java 的 Hive UDF。
2025-04-21 17:52:13
620
原创 大数据学习(108)-子查询
子查询的执行时机:子查询是在外层查询的每一行上动态执行的,而不是先独立完成所有子查询操作。相关子查询的特点:子查询中引用了外层查询的表,因此每次执行时都会根据外层查询的当前行进行计算。执行顺序:外层查询逐行处理,每行触发一次子查询,然后根据子查询的结果判断是否满足条件。
2025-04-15 18:23:06
445
原创 大数据学习(105)-Hbase
HBase是一个基于Hadoop的分布式、可扩展、支持大数据存储的数据库。需要随机或实时读写大数据的场景支持数十亿行和数百万列的大表分布式列存储BigTableHBase(基于Hadoop)BigTable是Google的分布式列存储系统,HBase是其开源实现,提供稀疏多维映射表。分布式文件系统GFS是Google的早期分布式文件系统,HDFS是其开源版本,支持大规模数据存储。海量数据处理框架MapReduce。
2025-04-10 17:32:09
998
原创 大数据学习(104)-clickhouse与hdfs
🍋🍋🍋🍋ClickHouse和HDFS(Hadoop Distributed File System)都是大数据领域的核心技术组件,但它们的定位和功能有显著差异。
2025-04-09 17:06:17
549
原创 大数据学习(103)-Clickhouse详解
ClickHouse 是一个用于实时数据分析的开源列式数据库,最初由俄罗斯的 Yandex 开发。它以高性能和卓越的可扩展性著称,专门用于高性能数据分析。它被设计用于大规模数据集的高速查询和分析,特别适用于 OLAP(联机分析处理)工作负载。
2025-04-09 16:50:21
1061
原创 大数据学习(102)-spark shuffle
实际上,使用过程中还有其他一些限制,如引入 Page 形式的内存管理模型后,内部单条记录的长度不能超过 128 MB (具体内存模型可以参考 PackedRecordPointer 类)。另外,分区个数的限制也是该内存模型导致的。所以,目前使用基于 Tungsten Sort Shuffle 实现机制条件还是比较苛刻的。
2025-04-08 16:41:10
748
原创 大数据学习(101)-spark的高可用模式
在 Spark Standalone 集群的 HA 模式中,多个 Master 节点需要协作以实现故障自动转移。
2025-04-08 15:32:11
320
原创 大数据学习(100)-kafka详解
🍋🍋🍋🍋Apache Kafka 是一个,主要用于构建的实时数据管道和流式应用程序。它广泛应用于日志聚合、事件溯源、消息队列、实时分析等场景。
2025-04-07 20:24:19
779
原创 大数据学习(97)-Hive常见问题
Hadoop生态的任务调度工具,支持Hive Action。大宽表(Flat Table),减少JOIN,适合实时查询。:如阿里云DataWorks、AWS EMR Step。:牺牲存储换查询性能(如ClickHouse)。一个事实表 + 多个维度表,适合OLAP分析。维度表进一步规范化,减少冗余,但查询复杂。:同列数据类型一致,压缩效果更好。:编排SQL脚本,依赖任务管理。:只读取需要的列,减少I/O。:适用于高可扩展的企业级数仓。:上层查询只需处理聚合数据。:避免重复计算,便于维护。
2025-04-03 10:51:51
892
原创 大数据学习(96)-Hive面试题
Hive是一个基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。Hive定义了简单的SQL查询语言称为HiveQL,该语言允许熟悉SQL的用户查询数据。同时,Hive提供了一个元数据存储,存储了所有表的元数据信息。应用场景举例:假设我们有一个电商网站,每天都会产生大量的交易数据,我们需要分析这些数据以了解销售情况、用户行为等信息。
2025-04-02 20:26:01
967
原创 大数据学习(95)-谓词下推
子句中的条件)尽可能下推到数据源或底层处理节点。通过提前过滤数据,减少需要传输和处理的数据量,从而显著提升查询性能。谓词下推是一种数据库查询优化技术,其核心思想是将过滤条件(即谓词,如。:网络传输数据量减少 80% 以上(假设。:结合列剪枝技术,避免加载无关列(如。的数据占 20%)。
2025-04-01 19:30:04
280
原创 大数据学习(94)-网络协议-TCP/IP协议栈、HTTP、HTTPS、DNS等协议原理
我们详细了解了TCP/IP协议栈、HTTP、HTTPS和DNS等关键网络协议的原理及其应用。这些协议在互联网通信中扮演着至关重要的角色,通过理解它们的工作机制,我们可以更好地优化和管理网络资源。如果有任何问题或需要进一步讨论,欢迎交流探讨。希望本文能为读者提供有价值的参考,帮助深入理解网络协议的原理和应用。
2025-04-01 17:01:01
823
原创 大数据学习(93)-HDFS与Hbase
🍋🍋大数据学习🍋🍋🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞
2025-04-01 14:59:16
1010
原创 大数据学习(92)-spark详解
Spark,是一种"One Stack to rule them all"的大数据计算框架,期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务。Apache官方,对Spark的定义就是:通用的大数据快速处理引擎。Spark使用Spark RDD、Spark SQL、 Spark Streaming,MLlib,GraphX成功解决了大数据领城中,离线批处理、交互式查询、实时流计算、机器学习与图计算等最重要的任务和问题。
2025-03-29 18:51:08
961
原创 大数据学习(91)-SQL优化
🍋🍋大数据学习🍋🍋🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞在我们书写SQL语句的时候,其实书写的顺序、策略会影响到SQL的性能,虽然实现的功能是一样的,但是它们的性能会有些许差别。因此,下面就讲解在书写SQL的时候,怎么写比较好。数据库的解析器按照从右到左的顺序处理FROM子句中的表名,FROM子句中写在最后的表将被最先处理在FROM子句中包含多个表的情况下:如果有3个以上的表连接查询:例如:查询员工的
2025-03-27 17:48:39
442
原创 大数据学习(90)-Hive函数
🍋🍋🍋🍋前言在大数据处理和分析的过程中,数据的转换和处理是至关重要的环节。Apache Hive作为一种流行的数据仓库工具,提供了丰富的内置函数,帮助用户高效地处理和分析存储在Hadoop分布式文件系统(HDFS)中的数据。这些内置函数涵盖了数值计算、字符串处理、日期与时间操作、条件判断、聚合计算、集合处理、类型转换以及用户定义的表生成函数(UDTF)等多个方面。本篇文章将详细介绍Hive中的内置函数,包括它们的功能、用法和示例。
2025-03-26 20:19:05
1064
原创 大数据学习(89)-HIve SQl练习
🍋🍋大数据学习🍋🍋🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞以 任意 顺序返回结果表。查询结果的格式如下。二、编写一个解决方案来返回需要听取汇报的所有经理的 ID、名称、直接向该经理汇报的员工人数,以及这些员工的平均年龄,其中该平均年龄需要四舍五入到最接近的整数。返回的结果集需要按照 进行排序。结果的格式如下:三、一个员工可以属于多个部门。当一个员工加入超过一个部门的时候,他
2025-03-26 17:45:10
289
原创 大数据学习(87)-工作流调度系统Apache DolphinScheduler
(目前处在孵化阶段)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。DolphinScheduler是今年(2019年)中国易观公司开源的一个调度系统,在今年美国时间2019年8月29号,易观开源的分布式任务调度引擎DolphinScheduler(原EasyScheduler)正式通过顶级开源组织Apache基金会的投票决议,根据Apache。
2025-03-25 17:07:20
1051
原创 大数据学习(86)-Zookeeper去中心化调度
集群去中心化是现代分布式系统架构的重要演进方向,它通过消除单点依赖、提高系统自治能力来应对日益复杂的业务需求。
2025-03-25 16:08:58
915
原创 大数据学习(84)-Hive数仓
Hive是基于Hadoop的数据仓库工具。可以用于存储在Hadoop集群中的HDFS文件数据集进行数据整理、特殊查询和分析处理。Hive提供了类似于关系型数据库SQL语言的HiveQL工具,通过HiveQL可以快速实现简单的MapReduce统计。Hive的本质就是将HiveQL语句转换为MapReduce任务后运行,非常适合做数据仓库的数据分析。
2025-03-24 20:29:57
1046
原创 大数据学习(82)-数仓详解
数据仓库(下文以“数仓”称),顾名思义,存放数据的仓库,它集合了各个业务系统的数据,以金融业为例,数仓包含了贷款业务、CRM、存款业务等数据。用于企业做数据分析、出报告、做决策;在有些公司也作为各业务系统的数据来源。从逻辑上理解,数据库和数仓没有区别,都是通过数据库软件实现存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大。他们最主要的区别在于,传统事务型数据库如 MySQL 用于做联机事务处理(OLTP),例如交易事件的发生等;而数据仓库主要用于联机分析处理(OLAP),例如出报表等。
2025-03-24 18:12:29
1015
原创 大数据学习(79)-数仓体系
是什么:Hadoop是一个由Apache基金会所开发的分布式系统基础架构有什么用:使用户可以在不了解分布式底层细节的情况下,开发分布式程序屏蔽分布式底层细节,使得开发时无需考虑分布式底层的文件存储、资源调度、任务分配、结果汇总等细节Hadoop分布式文件管理系统,是被设计成适合运行在通用硬件上的分布式文件系统,基于基于流式数据模式访问及处理超大文件的目的而构建。用来管理存储在分布式集群中的文件,包括数据读取、数据写入、文件管理等。
2025-03-21 16:03:28
1098
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人