- 博客(146)
- 收藏
- 关注
原创 大数据学习(95)-谓词下推
子句中的条件)尽可能下推到数据源或底层处理节点。通过提前过滤数据,减少需要传输和处理的数据量,从而显著提升查询性能。谓词下推是一种数据库查询优化技术,其核心思想是将过滤条件(即谓词,如。:网络传输数据量减少 80% 以上(假设。:结合列剪枝技术,避免加载无关列(如。的数据占 20%)。
2025-04-01 19:30:04
151
原创 大数据学习(94)-网络协议-TCP/IP协议栈、HTTP、HTTPS、DNS等协议原理
我们详细了解了TCP/IP协议栈、HTTP、HTTPS和DNS等关键网络协议的原理及其应用。这些协议在互联网通信中扮演着至关重要的角色,通过理解它们的工作机制,我们可以更好地优化和管理网络资源。如果有任何问题或需要进一步讨论,欢迎交流探讨。希望本文能为读者提供有价值的参考,帮助深入理解网络协议的原理和应用。
2025-04-01 17:01:01
591
原创 大数据学习(93)-HDFS与Hbase
🍋🍋大数据学习🍋🍋🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞
2025-04-01 14:59:16
501
原创 大数据学习(92)-spark详解
Spark,是一种"One Stack to rule them all"的大数据计算框架,期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务。Apache官方,对Spark的定义就是:通用的大数据快速处理引擎。Spark使用Spark RDD、Spark SQL、 Spark Streaming,MLlib,GraphX成功解决了大数据领城中,离线批处理、交互式查询、实时流计算、机器学习与图计算等最重要的任务和问题。
2025-03-29 18:51:08
873
原创 大数据学习(91)-SQL优化
🍋🍋大数据学习🍋🍋🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞在我们书写SQL语句的时候,其实书写的顺序、策略会影响到SQL的性能,虽然实现的功能是一样的,但是它们的性能会有些许差别。因此,下面就讲解在书写SQL的时候,怎么写比较好。数据库的解析器按照从右到左的顺序处理FROM子句中的表名,FROM子句中写在最后的表将被最先处理在FROM子句中包含多个表的情况下:如果有3个以上的表连接查询:例如:查询员工的
2025-03-27 17:48:39
431
原创 大数据学习(90)-Hive函数
🍋🍋🍋🍋前言在大数据处理和分析的过程中,数据的转换和处理是至关重要的环节。Apache Hive作为一种流行的数据仓库工具,提供了丰富的内置函数,帮助用户高效地处理和分析存储在Hadoop分布式文件系统(HDFS)中的数据。这些内置函数涵盖了数值计算、字符串处理、日期与时间操作、条件判断、聚合计算、集合处理、类型转换以及用户定义的表生成函数(UDTF)等多个方面。本篇文章将详细介绍Hive中的内置函数,包括它们的功能、用法和示例。
2025-03-26 20:19:05
1041
原创 大数据学习(89)-HIve SQl练习
🍋🍋大数据学习🍋🍋🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞以 任意 顺序返回结果表。查询结果的格式如下。二、编写一个解决方案来返回需要听取汇报的所有经理的 ID、名称、直接向该经理汇报的员工人数,以及这些员工的平均年龄,其中该平均年龄需要四舍五入到最接近的整数。返回的结果集需要按照 进行排序。结果的格式如下:三、一个员工可以属于多个部门。当一个员工加入超过一个部门的时候,他
2025-03-26 17:45:10
275
原创 大数据学习(87)-工作流调度系统Apache DolphinScheduler
(目前处在孵化阶段)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。DolphinScheduler是今年(2019年)中国易观公司开源的一个调度系统,在今年美国时间2019年8月29号,易观开源的分布式任务调度引擎DolphinScheduler(原EasyScheduler)正式通过顶级开源组织Apache基金会的投票决议,根据Apache。
2025-03-25 17:07:20
1020
原创 大数据学习(86)-Zookeeper去中心化调度
集群去中心化是现代分布式系统架构的重要演进方向,它通过消除单点依赖、提高系统自治能力来应对日益复杂的业务需求。
2025-03-25 16:08:58
891
原创 大数据学习(84)-Hive数仓
Hive是基于Hadoop的数据仓库工具。可以用于存储在Hadoop集群中的HDFS文件数据集进行数据整理、特殊查询和分析处理。Hive提供了类似于关系型数据库SQL语言的HiveQL工具,通过HiveQL可以快速实现简单的MapReduce统计。Hive的本质就是将HiveQL语句转换为MapReduce任务后运行,非常适合做数据仓库的数据分析。
2025-03-24 20:29:57
1017
原创 大数据学习(82)-数仓详解
数据仓库(下文以“数仓”称),顾名思义,存放数据的仓库,它集合了各个业务系统的数据,以金融业为例,数仓包含了贷款业务、CRM、存款业务等数据。用于企业做数据分析、出报告、做决策;在有些公司也作为各业务系统的数据来源。从逻辑上理解,数据库和数仓没有区别,都是通过数据库软件实现存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大。他们最主要的区别在于,传统事务型数据库如 MySQL 用于做联机事务处理(OLTP),例如交易事件的发生等;而数据仓库主要用于联机分析处理(OLAP),例如出报表等。
2025-03-24 18:12:29
1004
原创 大数据学习(79)-数仓体系
是什么:Hadoop是一个由Apache基金会所开发的分布式系统基础架构有什么用:使用户可以在不了解分布式底层细节的情况下,开发分布式程序屏蔽分布式底层细节,使得开发时无需考虑分布式底层的文件存储、资源调度、任务分配、结果汇总等细节Hadoop分布式文件管理系统,是被设计成适合运行在通用硬件上的分布式文件系统,基于基于流式数据模式访问及处理超大文件的目的而构建。用来管理存储在分布式集群中的文件,包括数据读取、数据写入、文件管理等。
2025-03-21 16:03:28
1085
原创 大数据学习(78)-spark streaming与flink
它采用检查点机制实现Exactly-once语义,确保每条数据被精确处理一次,并支持事件时间处理,能够很好地处理乱序事件。Spark Streaming则基于微批处理模型,将数据流离散为批进行处理,通过RDD拼接批结果来模拟流计算。Flink更适合低延迟、高精度的连续流处理,而Spark Streaming更偏向间断性数据流处理。此外,Flink支持丰富的流处理功能,如循环流、流Join等,但需要单独部署和运维。Spark Streaming 则是通过微批处理的方式来实现对实时数据流的处理。
2025-03-20 16:49:58
755
原创 大数据学习(77)-Hive详解
Hive架构中主要包括客户端(Client)、Hive Server、元数据存储(MetaStore)、驱动器(Driver)。
2025-03-20 12:45:34
850
原创 大数据学习(74)-Hue元数据
为了提高查询性能,可以优化元数据的存储和访问方式。例如,使用合适的分区策略、索引和数据存储格式等。此外,还可以调整Impala的元数据缓存策略,以减少元数据加载时间和提高查询速度。有时,在Hive中创建的表或函数在Impala中可能不可见。Impala是由Cloudera公司开发的新型查询系统,它提供SQL语义,具体来说,Hive和Impala都使用。首先值得说明的是,在Hue中,Impala和Hive的元数据是相同的。,这包括表定义、列信息、分区信息等。语句来刷新Impala的元数据缓存。
2025-03-19 15:45:28
586
原创 大数据学习(72)-zookeeper选举机制
ZooKeeper的选举机制是基于ZAB(Zookeeper Atomic Broadcast)协议的,这是一种基于Paxos协议的变种,专门用于ZooKeeper的分布式协调服务。该机制确保集群中只有一个领导节点(Leader),负责处理所有的写请求和大部分的读请求,其他的节点则作为跟随者(Follower)或观察者(Observer),负责处理读请求并接收来自领导者的更新。
2025-03-18 20:25:45
829
原创 大数据学习(71)-三范式构成
范式是数据库设计时遵循的一种规范,不同的规范要求遵循不同的范式。第一范式(1NF):简单说 列不能再分第二范式(2NF):简单说 建立在第一范式基础上,消除部分依赖第三范式(3NF):简单说 建立在第二范式基础上,消除传递依赖。
2025-03-18 15:15:30
372
原创 大数据学习(70)-大数据调度工具对比
主流大数据调度工具有DolphinScheduler、Azkaban、Airflow、Oozie和Xxl-job
2025-03-17 21:04:48
898
原创 大数据学习(69)-数据架构
ODS作为数据仓库的起点,承载着连接源系统与数据仓库其他层次的重要任务。它不仅是原始数据的存储地,也是数据清洗、整合的出发点。
2025-03-17 20:54:00
1554
原创 大数据学习(69)- OLAP和OLTP
特性OLTPOLAP目标支持日常事务操作支持复杂查询和分析数据模型规范化关系模型(如 3NF)非规范化多维模型(如星型模型)数据量较小,实时数据较大,历史数据查询类型简单,增删改查复杂,聚合和多维分析更新频率高,实时更新低,批量更新性能指标事务处理速度(TPS)查询响应时间(QPS)技术实现关系型数据库(如 MySQL)数据仓库(如 Snowflake)用户群体业务操作人员数据分析师和决策者典型场景银行交易、订单处理销售分析、趋势预测如果需要支持高并发、实时的事务处理,选择OLTP。
2025-03-14 20:40:11
823
原创 大数据学习(68)- Flink和Spark Streaming
Flink 是基于流的真正runtime,可以持续地对无界数据流进行计算。Spark Streaming 则采用的是微批处理模型,将数据流离散为批进行处理。
2025-03-14 15:51:40
1200
原创 大数据学习(67)- Flume、Sqoop、Kafka、DataX对比
Flume、Sqoop、Kafka 和 DataX 都是大数据领域中常用的数据采集、传输和同步工具,各自有不同的应用场景和特点。
2025-03-14 14:36:46
1795
原创 大数据学习(66)- CDH管理平台
是 Cloudera 公司基于 Apache Hadoop 生态系统构建的一个企业级大数据平台。它集成了 Hadoop 的核心组件(如 HDFS、YARN、MapReduce)以及其他常用的大数据工具(如 Hive、Spark、HBase 等),并提供了统一的管理和监控工具(如 Cloudera Manager)。CDH是Cloudera的100%开源平台发行版,包括Apache Hadoop,专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。
2025-03-13 20:55:08
799
原创 大数据学习(65)- Hue详解
是一个开源的 Web 界面工具,旨在简化与 Hadoop 生态系统交互的操作。它为用户提供了直观的图形化界面,无需深入掌握命令行即可完成大数据处理任务,尤其适合数据分析师、开发者和运维人员使用。
2025-03-13 16:23:30
1305
原创 大数据学习(62)- Hadoop-yarn
1. YARN简介Hadoop-YARN是Apache Hadoop生态系统中的一个集群资源管理器。它作为Hadoop的第二代资源管理框架,负责管理和分配集群中的计算资源。YARN的设计目标是提供一个通用的资源管理框架,使得Hadoop集群可以同时运行多个计算框架,如等。通过将集群资源和计算任务分离,YARN实现了更高的资源利用率和更好的集群资源管理。2. YARN架构Hadoop-YARN的架构包括以下组件:(1) ResourceManager(资源管理器)
2025-03-12 17:41:44
1581
原创 大数据学习(61)-Impala与Hive计算引擎
当 Impala 与 YARN 集成时,YARN 负责管理集群中的计算资源,如 CPU 和内存,并根据 Impala 的需求进行资源分配。此外,YARN 还提供了容错机制,可以在节点故障时自动重新分配任务,从而确保 Impala 作业的可靠性。这种动态代码生成技术能够显著提高查询的执行效率,因为生成的代码是专门为该查询定制的,能够充分利用底层硬件的特性。Impalad 是 Impala 的守护进程,它运行在 Hadoop 集群的每个节点上,与 DataNode 运行在同一节点上。
2025-03-12 14:22:19
1020
原创 大数据学习(60)-HDFS文件结构
权限可以分为读(Read)、写(Write)和执行(Execute)三种,用户可以根据需要为不同的文件和目录设置不同的权限。HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M。namenode是HDFS集群主节点,负责维护整个hdfs文件系统的目录树,以及每一个路径(文件)所对应的block块信息(block的id,及所在的datanode服务器)2. 分区目录(常见于大数据场景)
2025-03-11 14:50:52
1212
原创 大数据学习(59)-DataX执行机制
Job 的并行执行单元,每个 Task 包含一个 Reader 和 Writer,通过 Channel 连接。10 个 Task 并发执行,每个 Task 读取 1 个分片数据并写入 HDFS。每个 TaskGroup 由独立的线程池管理,Task 在 TaskGroup 内并行执行。数据传输通道,负责缓存和传输数据,是 Reader 和 Writer 之间的桥梁。Writer 插件根据目标数据源的写入规则,生成对应的写入分片。单个 Task 的数据传输是原子的,要么全部成功,要么失败回滚。
2025-03-11 13:35:34
501
原创 大数据学习(57)-DataX基础
DataX是一个开源的数据同步工具,主要用于在不同数据存储之间高效迁移数据。DataX架构原理:为了解决异构数据源同步问题,DataX 将复杂的网状的同步链路变成了星型数据链路,DataX 作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。二、DataX 的核心概念数据同步模型DataX 采用Reader:从源数据源读取数据。Channel:数据传输通道,负责数据的缓冲和传输。Writer:将数据写入目标数据源。
2025-03-06 16:52:16
1021
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人