月亮给我抄代码-CSDN博客

原创 Spark 为什么比 Hive 快

由于 MapReduce 的特性，Hive 在处理大规模数据时可能会出现较高的延迟，因为它需要频繁地将数据写入和读取磁盘，Shuffle 操作会导致花费的时间代价比较大。那么在稳定性方面，Hive 优于 Spark，这是因为在 MR 任务中，数据总是按照块分片进行处理，每块数据都可以独立地读取和处理，并不需要将所有数据都加载到内存中，因此它对内存的需求远低于Spark。由于 Spark 使用的是内存计算，在处理大规模的数据时，需要足够的内存资源，否则可能会发生 OOM 或者导致计算速度非常缓慢。

2024-04-26 15:25:50 276 1

原创 ClickHouse 如何实现数据一致性

在大数据中，基本上所有组件都要求做到数据的一致性，因为大多数环境都是分布式的情况，如果数据无法做到一致，最终在进行分析计算时，导致指标出现问题，影响业务。本篇文章将探讨在 ClickHouse 中实现数据一致性的几种方式。

2024-04-25 14:15:11 503

原创索引！索引！！索引！！！到底什么是索引？

索引是数据库中的一种数据结构，用于快速查找和访问数据库表中的特定数据。它类似于书籍中的目录，可以帮助快速找到需要的信息而不必逐页查找。在数据库中，索引可以根据某个或多个字段的值排序并保存，这样数据库就可以通过索引快速定位到符合特定条件的数据行，而不必全表扫描，大大提高数据库的查询性能和效率。

2024-04-24 20:30:55 722

原创 ClickHouse 高可用之副本

官方给出的副本表创建示例：参数说明，其中表示分片标识信息，大多数情况下，只需要写入一个占位符。参数二：ZooKeeper 中该表的副本名称，该值必须与其它机器不同！在创建副本表时，它们可以存储在不同的库中，并不会影响副本的创建，只需要保证它们使用的是同一个 Zookeeper 路径即可。

2024-04-23 17:22:32 879

原创 ClickHouse 数据类型、表引擎与TTL

你可以为表中的某个列设置 TTL，指定数据的存储时间，一旦数据的时间戳超过了 TTL 设置的时间，数据将被自动删除。不同的引擎具有不同的特性和适用场景，可以根据数据的特点和应用需求选择合适的引擎来存储和处理数据。ReplacingMergeTree 引擎是 MergeTree 引擎的变种，支持在插入新数据时自动删除旧数据，适用于周期性更新的数据存储场景。查询出来，可能会出现并没有去重成功的情况，这是因为使用的 ClickHouse 是老版本的，在插入数据时不会立即去重。的表，用于存储网站访问日志数据。

2024-04-22 22:01:31 1002

原创数仓常用分层与维度建模

维度建模是一种在数据仓库和商业智能领域常用的设计方法。它主要用于组织和表示数据，让用户可以方便地进行查询、分析和报告。维度建模的核心思想是将数据组织成维度和事实两类。维度是描述业务过程中各种特征的属性，如时间、地点、产品、客户等（例如：产品详情表），而事实则是与这些维度相关联的数值型数据，如销售额、数量、利润等（例如：产品销售表）。在维度建模中，通常采用星型模型或雪花模型，下面将从这两个方面展开说说。

2024-04-19 11:44:45 665

原创 FineBI 6.0 Linux 部署、ClickHouse 源配置

FineBI 是一款国产的商业智能（BI）软件产品，提供数据分析、报表制作、数据可视化、数据挖掘等功能。FineBI 可以帮助企业更好地理解和利用自己的数据，从而支持决策和业务发展。它具有易用性强、功能丰富、灵活性高等特点，受到许多企业的青睐。它分为企业版以及试用版，功能都是一样的，但是试用版的并发数量只有2个。

2024-04-17 17:48:16 1025

原创 DolphinScheduler 调度工作流报错 Host key verification failed.

在调度多个任务时，如果你选择的失败策略是【继续】，那么可能会导致你即使失败了，也看不到相关的日志，它应该会重复执行，我不知道这算不算 DolphinScheduler 的 BUG，我碰到了这种情况，失败策略选择【结束】时，则不会出现这种情况。导致我刚开始认为是我的 SSH 配置问题，后面验证过发现 SSH 正常，才想起来租户要与操作系统的用户对应。DolphinScheduler 中的租户与 Linux 系统中的用户是对应的，也就是说，在执行调度任务时，失败了，查看日志发现错误 ——

2024-04-16 15:02:16 274

原创 IDEA 打包 Spark 项目 POM 文件依赖

表示依赖项在编译和测试时可用，但在运行时由目标环境（例如应用服务器）提供。这通常用于将依赖项排除在最终的打包文件之外，因为目标环境已经包含了这些依赖项。元素用于指定依赖的作用范围，告诉 Maven 在构建项目时如何处理依赖项。，表示依赖项在编译、测试和运行时都可用。集群拥有相关执行依赖，则可以使用轻量级的包，否则就需要使用具有依赖的包。：表示依赖项在运行时可用，但不会在编译时和测试时包含在。这通常用于在运行时需要但在编译时不需要的依赖项。：表示依赖项只在测试时可用，不会包含在编译和运行时的。

2024-04-11 16:08:59 754

原创 Hive 之 UDF 运用（包会的）

Hive 支持两种 UDF 函数自定义操作，分别是：GenericUDF（通用UDF）：用于实现那些可以处理任意数据类型的函数。它们的输入和输出类型可以是任意的，但需要在函数内部处理类型转换和逻辑，可以实现更复杂的逻辑处理。UDF：用于实现那些只能处理特定数据类型的函数。每个 UDF 都明确指定了输入参数的类型和返回值类型，使用更为简单。本文采用的是通用 UDF —— GenericUDF 实现方法这里通过一个在 Hive 中实现两数相加的自定义 UDF 案例来进行说明，看完你就会啦，轻松拿捏。在。

2024-04-06 19:26:09 1181

原创 org.apache.hadoop.security.AccessControlException Permission denied: user=anonymous, access=WRITE...

但是该方法治标不治本，而且我们处于匿名模式下也不安全，如果是测试环境则可以通过手动授权的方式快速解决。既然是因为我们的用户权限问题，那么可以通过创建一个拥有权限的用户不就能解决了，这种方式还更加安全。当我使用 HiveServer2 远程连接对 Hive 进行 DDL 操作时，出现了权限错误，，也就是匿名（游客）模式，但正在执行一个写操作，被拒绝了。为我们在 Hive 中创建的对应用户。报错显示，目前我登录的用户名为。创建完成，没有错误，问题解决。修改 Hive 的配置文件。，检查是否还有权限报错问题。

2024-04-04 20:23:32 700

原创 Flume 拦截器概念及自定义拦截器的运用

位于 Source 与 Channel 之间，在写入Channel 之前，拦截器可以对数据进行转换、提取或删除，以满足特定的需求。拦截器可以用于监控数据流的运行情况，记录日志信息或统计数据流中的事件数量、处理速率等指标，帮助用户进行性能分析和故障排查。在 Flume 中，拦截器（Interceptors）是一种可以在事件传输过程中拦截、处理和修改事件的组件。例如，可以添加时间戳、主机信息、标签等，以丰富事件数据的内容。Flume 拦截器就是起到这样的效果，对数据进行处理、转换、删除等操作，是不是很简单呀。

2024-04-04 16:45:46 934

原创 Flume 配置文件编写技巧（包会的，抄就完了）

如果你在编写 Flume 配置文件时，分不清。

2024-04-02 23:15:55 1117

原创 Hadoop、HDFS 相关面试题

Hadoop 是一个开源的分布式存储和计算框架，最初由 Apache 软件基金会开发。它允许大规模数据处理和存储，具有高度可靠性和可扩展性。分布式文件系统HDFS—— 用于数据存储计算框架YARN—— 用于资源管理和作业调度HDFS 是 Hadoop 生态系统的核心组件之一，用于存储大规模数据，并提供高容错性和高吞吐量的分布式文件系统。HDFS 优点高吞吐量： HDFS 针对大文件进行了优化，能够提供较高的数据读写吞吐量。

2024-04-02 19:41:19 812

原创 Linux（CentOS7.5）安装部署 Python3.6（超详细！包含 Yum 源配置！）

下的文件全部删除，然后重新获取 Yum 源镜像，清理并更新 Yum 缓存。这一步只要前面 Yum 源配置对了就不会报错，如果出错了，可以直接把。如果安装过程中出现了报错，可以看看下面出现的报错场景，找找解决方法。选择你需要安装的 Python3 版本进行下载 ——这是由于没有 C 语言编译器引起的，下载后即可解决。但下载速度比较慢，可以直接通过我的链接下载 ——这一套操作下来，这个问题应该可以得到解决，这里提示是否需要开启自动优化，无需理会。报错解决后，重新执行编译安装命令。重新执行命令，等待约。

2024-03-29 20:50:15 1182

原创在 Linux 中通过 SSH 执行远程命令时，无法自动加载环境变量（已解决）

这是由于 Linux 登录方式不同造成所加载的环境变量也有所不同的原因导致的。目录下，这样无论是否登录，都会自动加载。创建一个环境变量文件，存储在。目前我的环境变量都存储在。

2024-03-29 17:40:50 681

原创【Apache Superset】从概述、安装到运用，一篇掌握！

Apache Superset 是一个现代的企业级商业智能 Web 应用程序。它快速、轻量、直观，并内置了各种选项，使所有的用户都可以轻松探索和可视化他们的数据，从简单的饼图到高度详细的地理空间图表。简单来说，Superset 就是一个访问数据源并对其进行可视化的工具。

2024-02-15 21:05:17 1768 3

原创【数据库原理】函数依赖、三范式、视图、事务、数据库设计（概念、逻辑、物理结构设计，实施）、数据流图、数据字典、存储过程、触发器、备份与还原【我统统拿下！】

一、系统需求分析阶段在这个阶段，需要与用户和利益相关者沟通，了解他们的需求和期望。确定数据库所需的功能、数据类型、存储需求以及与用户交互的方式。收集数据的相关需求，包括数据类型、数据量、数据处理方式等。二、概念设计阶段在这个阶段，设计者将需求转化为高层次的概念模型。通常使用实体关系模型（ER 模型）或其他概念性的建模技术，描述实体、关系和约束。这个阶段不关注具体的数据库管理系统，而是专注于概念层面的设计。三、逻辑设计阶段在这个阶段，将概念设计转换为逻辑模型。

2023-12-03 19:07:07 560 1

原创 retry.RetryInvocationHandler: java.net.NoRouteToHostException: No Route to Host from hadoop100/192.

2023-11-07 22:31:59,334 INFO retry.RetryInvocationHandler: java.net.NoRouteToHostException: No Route to Host from hadoop100/192.168.10.100 to hadoop101:8032 failed on socket timeout exception: java.net.NoRouteToHostException: 没有到主机的路由;检查集群中的每台机器免密登录是否正常。

2023-11-19 12:53:39 364

原创大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】

数据仓库建模（Data Warehouse Modeling）是指在数据仓库（Data Warehouse）中组织和设计数据的过程，以便支持数据分析、报告和决策制定。数据仓库是一个集成的、主题导向的数据存储，用于存储来自不同来源的数据，经过清洗、转换和集成，以支持业务分析和决策。主要目标是创建一个能够满足用户需求的数据结构，以便用户可以轻松地查询和分析数据。数据仓库建模的选择取决于业务需求、数据的性质以及可用的技术和工具。

2023-11-19 11:38:31 1557

原创 DolphinScheduler V3.1.8 海豚调度器【概述、安装、功能介绍、项目运用、邮箱预警设置】轻松拿捏！

Apache DolphinScheduler 是一个分布式易扩展的可视化 DAG 工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发 ETL 依赖错综复杂，无法监控任务健康状态的问题。

2023-11-17 10:50:29 6161

原创 Hive 解析 JSON 字符串数据的实现方式

在建表时指定序列化的格式，使用过程中就可以直接获取到 JSON 文件中的内容，无需进行手动解析操作。及以上版本中（在低版本中需要通过添加 Jar 包实现），内置了序列化 JSON 内容数据的包。：指的是匹配 JSON 字符串的格式，通过固定的语法获取 JSON 字符串中的内容。序列化与反序列解析 JSON 文件实战用的更多，更加方便快捷。在 Hive 中提供了直接解析 JSON 字符串数据的方法。：顾名思义，就是 JSON 字符串；：表示获取整个 JSON 文件的根；，其中存储了 JSON 文件。

2023-11-04 16:02:18 796

原创 Hive On Spark 概述、安装配置、计算引擎更换、应用、异常解决

Hive On Spark 概述、安装配置、计算引擎更换、应用、异常解决

2023-10-30 23:07:16 4666 14

原创 Flume 快速入门【概述、安装、拦截器】

Flume 是一个开源的数据采集工具，最初由 Apache 软件基金会开发和维护。它的主要目的是帮助用户将大规模数据从各种数据源（如日志文件、网络数据源、消息队列等）采集、传输和加载到数据存储系统（如 Hadoop HDFS、Apache HBase、Apache Hive 等）。Flume 旨在处理大规模数据流，以便进行数据分析和处理。

2023-10-29 19:31:13 1585

原创【Hive SQL】字符串操作函数你真的会用吗？

今天在做一个需求的时候，需要判断字符串中是否包含一个子串，然后我发现了我平常没注意到的一个点，通过这篇博文来记录一下。

2023-10-25 17:52:32 183

原创正规文法、正规式、确定的有穷自动机DFA、不确定的有穷自动机NFA 的概念、区分以及等价性转换【我直接拿下！】

在学习正规文法之前，需要先了解一下什么是文法，具体可以查看这篇文章，总结的比较好 ——

2023-10-22 17:31:04 4688

原创【Hive SQL 每日一题】环比增长率、环比增长率、复合增长率

它用于比较同一时间段内的两个不同年份的数据变化情况，判断增长趋势和比较不同年度的表现。复合增长率是指在一段连续的时间内，某项指标每个月或年平均增长的复合增长率。环比增长率是指两个相邻时段之间某种指标的增长率。通常来说，环比增长率是比较两个连续时间段内某项数据的增长量大小的百分比。理解环比增长率、同比增长率、复合增长率的概念以及计算公式就能够比较容易的实现这个需求。通过计算两者之间的差异，再以百分比的形式表示出来，就得到了环比增长率。通过计算两者之间的差异，再以百分比的形式表示出来，就得到了同比增长率。

2023-10-22 12:19:12 1338

原创 ARM 堆栈寻址类型区分

满递增是按照完整的数据单元大小增加，不论数据单元的大小是多少，递增时都会增加整个数据单元的大小。满递减是按照完整的数据单元大小递减，不论数据单元的大小是多少，递减时都会减少整个数据单元的大小。同样也是用于描述寄存器或内存中的值在递增或递减操作时，增加或减少一个空间单元的大小。用于描述寄存器或内存中的值在递增或递减操作时，增加或减少一个完整的数据单元的大小。空间单元的大小可能不是完整的数据单元大小，而是根据指定的步长进行增加或减少。空递减是按照指定的步长或空间单元大小递减，可以根据需要自定义递减步长。

2023-10-18 20:17:45 560

原创操作系统 —— 进程篇

进程控制指的是操作系统对进程的监控、调度、协调和管理，以确保系统中的多个进程能够有效、安全、有序地运行。进程阻塞和唤醒往往都是成对出现的，谁阻塞谁唤醒，举例说明：当前摄像头正在被其它进程占用，导致无法运行，那么等摄像头空闲时，该进程将会被唤醒。进程控制块 PCB（Process Control Block）是在创建进程时，系统给每个进程分配的管理者，是进程存在的唯一标识。在一个操作系统中，每一个进程都会拥有一个唯一的 PCB，大量的 PCB 由此便产生了对进程的组织方式。：存放已经执行完成的进程的队列。

2023-10-09 22:53:14 147

原创 Ubantu 报错：System has not been booted with systemd as init system (PID 1). Can‘t operate.

在 Linux 系统中，初始化系统是启动系统时第一个启动的进程，负责启动和管理系统中的各种服务。我在使用其它组件中出现了这个问题，通过。该错误提示表明你的系统没有使用。非管理员用户在命令前添加。安装该指令后成功解决。

2023-10-03 17:42:20 10236

原创 Ubantu 20.04 卸载与安装 MySQL 5.7 详细教程

对 MySQL 安装包进行解压，建议存储到一个专门的目录下，解压后会有很多小包。对解压后的包进行逐一安装，有安装顺序，不要混乱。执行以下命令即可一键卸载，包括配置文件目录等。在官网中选择你需要下载的版本 ——设置允许所有 IP 连接。

2023-10-03 11:05:35 709

原创 Ubuntu 20.04 安装部署 TiDB DM v7.3.0 集群【全网独家】

放眼全网，我找不出一篇在 Ubuntu 里面搭建 DM 集群的文章，虽然 TiDB 官方推荐使用 CentOS 系统，但因为工作需要，不得不在 Ubantu 里面搭建 DM 集群用作数据迁移，期间碰到了一些部署问题，折磨了我很久，这次通过这篇文章造福大众吧。

2023-10-02 16:17:14 1329

原创 Git 快速入门

【代码】Git 快速入门。

2023-09-22 10:01:21 281

原创 DataX 概述、部署、数据同步运用示例

DataX是阿里巴巴集团开源的、通用的数据抽取工具，广泛使用的离线数据同步工具/平台。它设计用于支持多种数据源之间的高效数据传输，可以实现不同数据源之间的数据同步、迁移、ETL（抽取、转换、加载）等数据操作。多数据源支持：DataX支持多种数据源，包括关系型数据库（如 MySQL、Oracle、SQL Server）、NoSQL 数据库（如 MongoDB、HBase、Redis）、HDFS、FTP、Hive 等。扩展性。

2023-09-15 21:25:36 2418

原创 Maxwell 概述、安装、数据同步【一篇搞定】！

Maxwell 在大数据领域通常指的是一个用于数据同步和数据捕获的开源工具，由美国 Zendesk 开源，用 Java 编写的 MySQL 等关系型数据库的实时抓取软件。Maxwell 可以监控数据库中的更改，并将这些更改以可消费的方式传递给其他系统。它通常用于实时数据管道、数据仓库、事件驱动架构等场景中，帮助将数据库中的变更数据传送到其他系统，以便进行分析、报告和其他数据处理操作。实时数据捕获：Maxwell 可以实时地捕获数据库中的更改，包括插入、更新和删除操作。支持多种数据库。

2023-09-15 12:28:27 3424

原创 Zookeeper 启动失败【Cannot open channel to 3 at election address...】

添加完成后，注意分发到其它节点！

2023-09-13 20:30:31 2064

原创【Hive SQL 每日一题】统计用户连续下单的日期区间

函数与行号标记进行运算，如果数据连续的话，那么运算后的日期必然是一样的。统计用户连续下单的日期区间，所以连续的下单日期必须。，显然该日期是连续的，利用这一特性完成该需求。进行分组，同天的下单日期只保留一条。的分组，最大值与最小值日期统计。运算后日期进行分组，过滤数量。窗口函数进行行号标记，然后和。窗口函数对行号进行标记。解决这题的关键是使用。运算后，日期结果都为。

2023-09-06 15:15:16 992

原创 Hive 和 HDFS、MySQL 之间的关系

Hive 使用 HDFS 作为其底层数据存储，将数据存储在 HDFS 中的文件和目录中，然后执行查询以从 HDFS 中检索和处理数据。在大数据环境中，MySQL 可能用于存储与 Hive 相关的元数据，例如 Hive 表的定义、分区信息和其他元数据。当用户将数据加载到 Hive 表时，数据通常会存储在 HDFS 中，这使得数据可以被多个 Hive 查询访问。Hive、MySQL 和 HDFS 是三个不同的数据存储和处理系统，它们在大数据生态系统中扮演不同的角色，但可以协同工作以支持数据管理和分析任务。

2023-09-04 14:34:15 1926

原创 Hive 表注释乱码解决

字符集，这两个参数决定了服务器和数据库如何处理和存储数据的字符编码，而我们通常使用的字符集都是。一般 Hive 的元数据信息都存储在 MySQL 中，但 MySQL 数据库中的。进入 MySQL 中调整下列参数，切换到存储 Hive 元数据信息的库，然后执行。在 Hive 中创建一个新表，并添加注释信息。，所以会造成 Hive 中注释出现。

2023-09-04 14:29:51 980

原创一文看懂 Hive 优化大全（参数配置、语法优化）

在数据库和 SQL 查询中，“Hint” 是一种用于指导数据库查询优化器执行查询的特殊注释或指令。它允许数据库管理员或开发人员向查询优化器提供额外的信息，以帮助优化器生成更有效的查询计划。SQL Hint 通常以特定的注释形式嵌入到查询语句中，以提示数据库系统如何执行查询。

2023-09-01 17:55:08 881

MySQL 8.0 CentOS 一键化部署脚本

HiveServer2 账号密码鉴权类编译 Jar 包

ClickHouse 的 JDBC 连接 jar 包

空空如也