- 博客(10)
- 收藏
- 关注
原创 HDFS 文件存储格式全解析:从文本到列式存储的深度对比
HDFS 文件存储格式的选择是大数据性能优化的关键环节。Text File以兼容性取胜,适合中间结果处理,而凭借列式存储特性成为数仓分析的标配。实际应用中,建议根据数据生命周期(原始数据→中间数据→结果数据)灵活选择格式,并结合计算引擎特性(如 Spark 的谓词下推)最大化性能。
2025-06-03 20:04:08
706
原创 Hive 高效使用的 7 个实用技巧:从配置优化到跨平台操作
环境可视化:通过配置显示当前数据库和字段名,减少操作失误。性能优化:小数据集使用本地模式,大数据集合理配置内存和资源。跨平台交互:利用 Shell 命令行和 HDFS 原生支持,减少工具切换成本。配置管理:理解不同配置方式的优先级,灵活选择临时或永久生效策略。掌握这些技巧后,可显著提升 Hive 操作的便捷性和数据处理效率,尤其适合日常开发、脚本调试和集群优化场景。
2025-05-21 20:05:56
929
原创 分享六道数据库高级面试题~~~
数据规范化是一种组织数据的过程,其核心目的是避免数据的重复和冗余,提高数据的一致性和完整性,同时优化数据库的存储和查询性能。想象一下,如果在数据库表中存在大量重复的数据,不仅会浪费存储空间,还可能在数据更新时出现不一致的情况,而规范化就是解决这些问题的有效手段。
2025-05-21 19:41:43
430
原创 Idea没网怎么下载插件和数据库驱动?本文叫你如何解决
最近很多小伙伴反应自己的idea连不上网络,导致没办法下载插件和数据库驱动,甚是头疼。莫慌,博主来拯救你~
2025-05-20 20:14:28
281
原创 Java内存管理
其中一些区域由 JVM 创建,而另一些区域由程序中使用的线程创建。但是,JVM 创建的内存区域仅在 JVM 退出时才会被销毁。每个执行特定方法任务的 JVM 线程都有一个与之关联的程序计数器寄存器。非本机方法的 PC 寄存器用于存储可用 JVM 指令的地址,而本机方法的程序计数器值是未定义的。JVM 使用垃圾收集器自动删除未使用的对象,并在后台释放内存。是向 JVM 明确请求垃圾收集的方法,但它不能确保垃圾收集,因为垃圾收集的最终决定权仅在 JVM。会自动删除不再需要的对象。堆区域中的垃圾收集是强制性的。
2025-05-12 19:43:34
526
原创 HDFS 伪分布模式搭建与使用全攻略(适合初学者 & 开发测试环境)
本地模式:所有服务都运行在一个 JVM 中,适合单元测试。伪分布模式:所有服务运行在同一台机器的不同 JVM 中,模拟分布式环境,适合学习和开发。完全分布式模式:服务部署在多台机器上,适合生产环境。伪分布模式兼顾学习效率与实用性,是很多初学者和测试场景的首选。HDFS 伪分布模式搭建并不复杂,却是学习 Hadoop 的必经之路。通过本教程你可以:快速搭建本地 HDFS 环境;了解核心配置与启动机制;掌握基本的 HDFS 操作与 MapReduce 程序运行方式。
2025-05-12 19:35:20
1190
原创 Sed 命令实战:高效实现文本过滤与替换
在 Linux 系统的文本处理领域,Sed(Stream Editor,流编辑器)是一款功能强大且高效的工具。它能够对文本进行过滤和替换操作,无论是处理配置文件、日志数据,还是进行数据清洗,Sed 都能大显身手。接下来,我们就深入学习 Sed 命令的各种用法。
2025-05-11 20:44:17
1123
原创 一文搞懂 awk 命令:文本处理的得力助手
awk 是一个功能强大的文本处理工具,在 Linux 及 Unix 环境中堪称最强大的数据处理引擎之一。其名称源于它的创始人阿尔佛雷德・艾侯(Alfred Aho)、彼得・温伯格(Peter Weinberger)和布莱恩・柯林汉(Brian Kernighan)姓氏的首个字母。如今,默认在 Linux 系统下日常使用的是 gawk,可通过ls -l /bin/awk命令查看正在应用的 awk 的来源。
2025-05-11 20:39:10
1291
原创 一文读懂 Linux 服务器间文件拷贝与免密登录操作
在 Linux 服务器的日常运维和开发工作中,经常会涉及到服务器之间的文件传输以及免密登录配置。这不仅能提高工作效率,还能简化复杂的操作流程。本文将结合具体实例,详细介绍 SCP 远程拷贝命令和服务器之间免密操作的相关知识。
2025-05-08 20:07:05
660
原创 在linux上使用rpm安装mysql
首先我们需要知道linux中有两种安装软件的方式,分别是yum和rpmyum:必须要求联网,yum源安装软件的时候,如果一个软件依赖于另一个软件,都会一并安装。yum源安装本质上也是,因为它是先将rpm 安装包下载下来之后,又使用命令给你安装了一遍而已。rpm:就好比是别人给了一个 exe 文件,只是我们的linux上是没有exe文件的,跟exe文件类似的是 rpm 安装包。在这里我们演示的是rpm安装mysql。
2025-05-07 20:19:33
640
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人