自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Hive 分区与分桶深度解析:从原理到实战

Hive 在大数据处理中的地位在当今大数据技术栈中,Hive 作为基于 Hadoop 的数据仓库工具,扮演着至关重要的角色。它允许用户使用类似 SQL 的语法来查询和分析存储在 Hadoop 分布式文件系统 (HDFS) 中的大规模数据集,极大地降低了大数据处理的门槛。Hive 的核心优势在于其对海量数据的高效管理和查询能力,而这背后,分区 (Partition) 和分桶 (Bucket) 技术功不可没。

2025-06-16 20:18:12 601

原创 Hive 优化指南:从入门到实战的性能提升策略

Hive 优化是一个系统性工程,需要从数据模型、SQL 写法、集群配置多维度协同。数据本地化:利用分区、分桶减少数据扫描范围计算轻量化:通过 Fetch、谓词下推避免无效计算资源高效化:JVM 重用、并行执行提升集群利用率执行智能化:借助 CBO、统计信息生成最优计划通过持续实践这些优化策略,数据工程师可以将 Hive 查询性能提升数倍甚至数十倍,为企业大数据分析提供强大的性能保障。

2025-06-16 20:05:39 766

原创 HDFS 文件存储格式全解析:从文本到列式存储的深度对比

HDFS 文件存储格式的选择是大数据性能优化的关键环节。Text File以兼容性取胜,适合中间结果处理,而凭借列式存储特性成为数仓分析的标配。实际应用中,建议根据数据生命周期(原始数据→中间数据→结果数据)灵活选择格式,并结合计算引擎特性(如 Spark 的谓词下推)最大化性能。

2025-06-03 20:04:08 734

原创 Hive 高效使用的 7 个实用技巧:从配置优化到跨平台操作

环境可视化:通过配置显示当前数据库和字段名,减少操作失误。性能优化:小数据集使用本地模式,大数据集合理配置内存和资源。跨平台交互:利用 Shell 命令行和 HDFS 原生支持,减少工具切换成本。配置管理:理解不同配置方式的优先级,灵活选择临时或永久生效策略。掌握这些技巧后,可显著提升 Hive 操作的便捷性和数据处理效率,尤其适合日常开发、脚本调试和集群优化场景。

2025-05-21 20:05:56 939

原创 分享六道数据库高级面试题~~~

数据规范化是一种组织数据的过程,其核心目的是避免数据的重复和冗余,提高数据的一致性和完整性,同时优化数据库的存储和查询性能。想象一下,如果在数据库表中存在大量重复的数据,不仅会浪费存储空间,还可能在数据更新时出现不一致的情况,而规范化就是解决这些问题的有效手段。

2025-05-21 19:41:43 438

原创 Idea没网怎么下载插件和数据库驱动?本文叫你如何解决

最近很多小伙伴反应自己的idea连不上网络,导致没办法下载插件和数据库驱动,甚是头疼。莫慌,博主来拯救你~

2025-05-20 20:14:28 330

原创 Java内存管理

其中一些区域由 JVM 创建,而另一些区域由程序中使用的线程创建。但是,JVM 创建的内存区域仅在 JVM 退出时才会被销毁。每个执行特定方法任务的 JVM 线程都有一个与之关联的程序计数器寄存器。非本机方法的 PC 寄存器用于存储可用 JVM 指令的地址,而本机方法的程序计数器值是未定义的。JVM 使用垃圾收集器自动删除未使用的对象,并在后台释放内存。是向 JVM 明确请求垃圾收集的方法,但它不能确保垃圾收集,因为垃圾收集的最终决定权仅在 JVM。会自动删除不再需要的对象。堆区域中的垃圾收集是强制性的。

2025-05-12 19:43:34 529

原创 HDFS 伪分布模式搭建与使用全攻略(适合初学者 & 开发测试环境)

本地模式:所有服务都运行在一个 JVM 中,适合单元测试。伪分布模式:所有服务运行在同一台机器的不同 JVM 中,模拟分布式环境,适合学习和开发。完全分布式模式:服务部署在多台机器上,适合生产环境。伪分布模式兼顾学习效率与实用性,是很多初学者和测试场景的首选。HDFS 伪分布模式搭建并不复杂,却是学习 Hadoop 的必经之路。通过本教程你可以:快速搭建本地 HDFS 环境;了解核心配置与启动机制;掌握基本的 HDFS 操作与 MapReduce 程序运行方式。

2025-05-12 19:35:20 1201

原创 Sed 命令实战:高效实现文本过滤与替换

在 Linux 系统的文本处理领域,Sed(Stream Editor,流编辑器)是一款功能强大且高效的工具。它能够对文本进行过滤和替换操作,无论是处理配置文件、日志数据,还是进行数据清洗,Sed 都能大显身手。接下来,我们就深入学习 Sed 命令的各种用法。

2025-05-11 20:44:17 1227

原创 一文搞懂 awk 命令:文本处理的得力助手

awk 是一个功能强大的文本处理工具,在 Linux 及 Unix 环境中堪称最强大的数据处理引擎之一。其名称源于它的创始人阿尔佛雷德・艾侯(Alfred Aho)、彼得・温伯格(Peter Weinberger)和布莱恩・柯林汉(Brian Kernighan)姓氏的首个字母。如今,默认在 Linux 系统下日常使用的是 gawk,可通过ls -l /bin/awk命令查看正在应用的 awk 的来源。

2025-05-11 20:39:10 1360

原创 一文读懂 Linux 服务器间文件拷贝与免密登录操作

在 Linux 服务器的日常运维和开发工作中,经常会涉及到服务器之间的文件传输以及免密登录配置。这不仅能提高工作效率,还能简化复杂的操作流程。本文将结合具体实例,详细介绍 SCP 远程拷贝命令和服务器之间免密操作的相关知识。

2025-05-08 20:07:05 726

原创 在linux上使用rpm安装mysql

首先我们需要知道linux中有两种安装软件的方式,分别是yum和rpmyum:必须要求联网,yum源安装软件的时候,如果一个软件依赖于另一个软件,都会一并安装。yum源安装本质上也是,因为它是先将rpm 安装包下载下来之后,又使用命令给你安装了一遍而已。rpm:就好比是别人给了一个 exe 文件,只是我们的linux上是没有exe文件的,跟exe文件类似的是 rpm 安装包。在这里我们演示的是rpm安装mysql。

2025-05-07 20:19:33 663 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除