huihui450-CSDN博客

原创 HDFS 文件存储格式全解析：从文本到列式存储的深度对比

HDFS 文件存储格式的选择是大数据性能优化的关键环节。Text File以兼容性取胜，适合中间结果处理，而凭借列式存储特性成为数仓分析的标配。实际应用中，建议根据数据生命周期（原始数据→中间数据→结果数据）灵活选择格式，并结合计算引擎特性（如 Spark 的谓词下推）最大化性能。

2025-06-03 20:04:08 706

原创 Hive 高效使用的 7 个实用技巧：从配置优化到跨平台操作

环境可视化：通过配置显示当前数据库和字段名，减少操作失误。性能优化：小数据集使用本地模式，大数据集合理配置内存和资源。跨平台交互：利用 Shell 命令行和 HDFS 原生支持，减少工具切换成本。配置管理：理解不同配置方式的优先级，灵活选择临时或永久生效策略。掌握这些技巧后，可显著提升 Hive 操作的便捷性和数据处理效率，尤其适合日常开发、脚本调试和集群优化场景。

2025-05-21 20:05:56 929

原创分享六道数据库高级面试题~~~

数据规范化是一种组织数据的过程，其核心目的是避免数据的重复和冗余，提高数据的一致性和完整性，同时优化数据库的存储和查询性能。想象一下，如果在数据库表中存在大量重复的数据，不仅会浪费存储空间，还可能在数据更新时出现不一致的情况，而规范化就是解决这些问题的有效手段。

2025-05-21 19:41:43 430

原创 Idea没网怎么下载插件和数据库驱动？本文叫你如何解决

最近很多小伙伴反应自己的idea连不上网络，导致没办法下载插件和数据库驱动，甚是头疼。莫慌，博主来拯救你~

2025-05-20 20:14:28 281

其中一些区域由 JVM 创建，而另一些区域由程序中使用的线程创建。但是，JVM 创建的内存区域仅在 JVM 退出时才会被销毁。每个执行特定方法任务的 JVM 线程都有一个与之关联的程序计数器寄存器。非本机方法的 PC 寄存器用于存储可用 JVM 指令的地址，而本机方法的程序计数器值是未定义的。JVM 使用垃圾收集器自动删除未使用的对象，并在后台释放内存。是向 JVM 明确请求垃圾收集的方法，但它不能确保垃圾收集，因为垃圾收集的最终决定权仅在 JVM。会自动删除不再需要的对象。堆区域中的垃圾收集是强制性的。

2025-05-12 19:43:34 526

原创 HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境）

本地模式：所有服务都运行在一个 JVM 中，适合单元测试。伪分布模式：所有服务运行在同一台机器的不同 JVM 中，模拟分布式环境，适合学习和开发。完全分布式模式：服务部署在多台机器上，适合生产环境。伪分布模式兼顾学习效率与实用性，是很多初学者和测试场景的首选。HDFS 伪分布模式搭建并不复杂，却是学习 Hadoop 的必经之路。通过本教程你可以：快速搭建本地 HDFS 环境；了解核心配置与启动机制；掌握基本的 HDFS 操作与 MapReduce 程序运行方式。

2025-05-12 19:35:20 1190

原创 Sed 命令实战：高效实现文本过滤与替换

在 Linux 系统的文本处理领域，Sed（Stream Editor，流编辑器）是一款功能强大且高效的工具。它能够对文本进行过滤和替换操作，无论是处理配置文件、日志数据，还是进行数据清洗，Sed 都能大显身手。接下来，我们就深入学习 Sed 命令的各种用法。

2025-05-11 20:44:17 1123

原创一文搞懂 awk 命令：文本处理的得力助手

awk 是一个功能强大的文本处理工具，在 Linux 及 Unix 环境中堪称最强大的数据处理引擎之一。其名称源于它的创始人阿尔佛雷德・艾侯（Alfred Aho）、彼得・温伯格（Peter Weinberger）和布莱恩・柯林汉（Brian Kernighan）姓氏的首个字母。如今，默认在 Linux 系统下日常使用的是 gawk，可通过ls -l /bin/awk命令查看正在应用的 awk 的来源。

2025-05-11 20:39:10 1291

原创一文读懂 Linux 服务器间文件拷贝与免密登录操作

在 Linux 服务器的日常运维和开发工作中，经常会涉及到服务器之间的文件传输以及免密登录配置。这不仅能提高工作效率，还能简化复杂的操作流程。本文将结合具体实例，详细介绍 SCP 远程拷贝命令和服务器之间免密操作的相关知识。

2025-05-08 20:07:05 660

原创在linux上使用rpm安装mysql

首先我们需要知道linux中有两种安装软件的方式，分别是yum和rpmyum：必须要求联网，yum源安装软件的时候，如果一个软件依赖于另一个软件，都会一并安装。yum源安装本质上也是，因为它是先将rpm 安装包下载下来之后，又使用命令给你安装了一遍而已。rpm：就好比是别人给了一个 exe 文件，只是我们的linux上是没有exe文件的，跟exe文件类似的是 rpm 安装包。在这里我们演示的是rpm安装mysql。

2025-05-07 20:19:33 640 1