自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 大数据开发必备技能_第三阶段14_数据建模知识体系文档

本文全面解读数据建模的核心知识体系,涵盖ER模型、维度建模(星型/雪花/星座模型)、Data Vault模型等核心方法,对比Kimball与Inmon架构的差异,详解数据仓库分层(ODS/CDM/ADS)的设计原则与优势。适合数据分析师、数据工程师及希望系统掌握数据建模技术的读者。

2025-04-28 08:39:12 1075

原创 大数据开发必备技能_第三阶段13_数据仓库02

数据仓库面试题

2025-04-25 08:15:00 805

原创 大数据开发必备技能_第三阶段13_数据仓库01

数据仓库面试

2025-04-25 08:00:00 859

原创 大数据开发必备技能_第三阶段12_Kettle技术文档

本文档全面介绍了开源ETL工具Kettle(Pentaho Data Integration)的核心功能与使用指南,涵盖数据抽取、转换、加载的实践方法,并提供了详细的SQL示例与练习题。同时总结了常见问题及面试题,帮助读者快速掌握Kettle在数据集成与处理中的应用技巧。

2025-04-24 08:51:02 871

原创 大数据开发必备技能_第三阶段11_Azkaban调度工具技术文档

本文档系统介绍了常见的调度工具及其核心功能,重点讲解了Azkaban的配置与使用流程,并总结了调度工具在作业依赖、定时任务、日志监控中的实践方法。同时提供面试常见问题及练习题目,帮助读者快速掌握调度工具的核心知识与应用场景。

2025-04-24 08:46:16 772

原创 大数据开发必备技能_第三阶段10_数据迁移技术实战指南

本文全面解析Hive数据迁移的两种核心方案,深入讲解中间文件法与Sqoop工具的使用技巧。通过15个真实操作示例、6个常见错误场景分析及5个典型面试问题,帮助读者掌握从基础迁移到自动化调度的完整技能体系。

2025-04-23 10:14:58 701

原创 大数据开发必备技能_第三阶段09_Hive数据倾斜问题全面解析与解决方案

本文深入剖析Hive数据倾斜的六大典型场景,提供七种针对性解决方案,涵盖空值处理、类型转换、MapJoin优化等核心技巧。通过真实SQL案例演示和性能对比数据,帮助读者掌握从基础调优到高级分治策略的完整解决方案体系。

2025-04-23 09:37:10 1153

原创 大数据开发必备技能_第三阶段08_Hive分桶技术详解

本文深入讲解Hive分桶技术,涵盖哈希分桶原理、分桶表操作规范、抽样查询技巧,以及分桶与分区的核心差异。通过实际SQL示例和HDFS存储结构分析,帮助读者掌握分桶表的设计方法与性能优化策略。

2025-04-23 09:27:41 416

原创 大数据开发必备技能_第三阶段07_Hive表管理与分区技术文档

本文详细讲解Hive中表管理与分区的核心操作,包括内部表与外部表的区别、静态分区与动态分区的实现方法。通过实战练习和面试题,帮助读者快速掌握Hive数据存储与优化的关键技能。

2025-04-22 09:00:00 1537

原创 大数据开发必备技能_第三阶段06_Hive JOIN优化

本文详细讲解Hive中JOIN操作的优化方法,包括MAP-JOIN、BUCKET MAP JOIN和SORT MERGE BUCKET MAP JOIN,分析其原理、适用场景及优缺点。通过对比不同JOIN类型的性能,帮助开发者选择最优方案,提升大数据处理效率。文档包含实战练习和面试题,助力读者快速掌握核心知识点。

2025-04-22 08:15:00 694

原创 大数据开发必备技能_第三阶段05_Hive性能优化篇(Hive架构层面优化)

Hive性能优化篇(Hive架构层面优化)

2025-04-22 08:00:00 1541

原创 大数据开发必备技能_第三阶段05_Hive性能优化篇(语法和参数层面优化(SQL语句相关))

Hive性能优化之(语法和参数层面优化(SQL语句相关))

2025-04-21 13:49:27 569

原创 大数据开发必备技能_第三阶段05_Hive性能优化篇(表设计层面优化)

Hive 常用的一些性能优化之表设计层面优化

2025-04-21 13:46:21 455

原创 大数据开发必备技能_第三阶段04_hive窗口函数技术文档

本文介绍SQL窗口函数(开窗函数)的核心概念,包括聚合函数(如SUM、AVG)、跨行取值函数(如LEAD、LAG)和排名函数(如RANK、ROW_NUMBER)。通过实际案例演示如何计算累积金额、日期差值、首末次下单日期等场景,帮助读者掌握窗口函数在数据分析中的应用。

2025-04-21 09:24:46 902

原创 大数据开发必备技能_第三阶段04_hive炸裂函数、UDTF与Lateral View技术文档

本文详解Hive中UDTF(用户自定义表生成函数)的核心用法,重点讲解炸裂函数EXPLODE和Lateral View的配合使用。通过电影分类统计案例,演示如何将一行数据拆分为多行并完成聚合计算。适合数据工程师、Hive开发者快速掌握复杂数据拆解技巧。

2025-04-18 16:35:41 573

原创 大数据开发必备技能_第三阶段04_hive高级聚合函数

本文介绍聚合函数的核心概念与应用,包括普通聚合函数(如count、max、min、sum)和高级聚合函数(如collect_list、collect_set),并通过实际Hive SQL案例演示如何按月统计入职人数及姓名。适合数据开发、数据分析师快速掌握聚合操作的核心技巧。

2025-04-18 16:28:44 672

原创 大数据开发必备技能_第三阶段04_hive单行函数

hive单行函数

2025-04-18 16:17:04 628

原创 大数据开发必备技能_第三阶段04_hive_1

本文档系统梳理了Hive的核心概念、语法规则、数据管理及实战应用,涵盖Hive与Hadoop生态的集成、存储格式优化、复杂查询实现等关键知识点。提供丰富的示例、练习与面试题,帮助读者快速掌握Hive在大数据场景下的使用技巧。适合数据工程师、分析师及大数据初学者参考。

2025-04-17 08:30:00 962

原创 大数据开发必备技能_第三阶段04_Hadoop学习笔记整理

本文档系统梳理了Hadoop的核心概念、架构组件、集群部署与操作,以及生态圈工具。涵盖HDFS文件系统、Yarn资源管理、MapReduce计算框架的详细解析,并提供实战练习与常见面试题。适合大数据初学者快速入门,或作为开发者日常参考手册。

2025-04-17 08:15:00 772

原创 大数据开发必备技能_第三阶段03_MySQL

文档系统整理了MySQL数据库的核心知识点,涵盖基础命令、常用函数、日期处理、数据类型、表操作、存储过程等内容,并附有实战练习与常见面试题。适合初学者快速入门或作为日常查询手册使用。

2025-04-17 08:00:00 596

原创 大数据开发必备技能_第三阶段02_Shell_02

介绍shell脚本的流程控制、函数、三大工具、正则表达式等,通过本文可以掌握shell高阶内容

2025-04-16 08:52:45 1001

原创 大数据开发必备技能_第三阶段02_Shell_01

shell脚本入门,变量,运算符

2025-04-16 08:30:00 875

原创 大数据开发必备技能_第二阶段01_Linux 操作系统基础操作指南

Linux 是一种开源操作系统,广泛应用于服务器、嵌入式设备及开发环境。其核心特点包括:命令行操作:主要依赖终端命令,无图形化界面。文件系统:所有文件存储在根目录(/)下,结构清晰。多用户支持:支持多用户并行操作,权限管理严格。

2025-04-16 08:00:00 836

原创 大数据笔试题_第二阶段配套笔试题01

第二阶段配套笔试题,主要考察存储过程、正则表达式、分页查询、计算口径、需求梳理、复杂sql梳理和窗口函数等

2025-04-15 08:30:00 872

原创 大数据开发必备技能_第二阶段18_Oracle 执行计划深度解析与优化指南

执行计划(Execution Plan) 是 Oracle 数据库执行 SQL 语句的详细步骤说明,通过分析执行计划可以:定位性能瓶颈(如全表扫描、低效连接)。优化查询效率(调整索引、连接顺序等)。预估资源消耗(通过 Cost 值评估 SQL 执行成本)

2025-04-15 08:15:00 1138

原创 大数据开发必备技能_第二阶段17_Oracle 索引技术详解

索引是数据库中用于加速数据检索的辅助结构,类似于书籍的目录。其核心作用包括:提升查询效率:避免全表扫描,快速定位数据。保证数据唯一性:唯一索引确保字段值的唯一性(如主键)。优化复杂操作:加速 JOIN、GROUP BY 和 ORDER BY 操作。

2025-04-15 08:00:00 708

原创 大数据开发必备技能_第二阶段16_拉链表案例

拉链表解决缓慢变化维问题,完整的案例帮助大家了解拉链表

2025-04-14 15:13:58 294

原创 大数据开发必备技能_第二阶段15_拉链表技术全解析

**拉链表**是一种通过时间范围标记数据有效期的表结构,用于追踪数据的历史变更。也是大数据面试必为的内容

2025-04-14 15:08:01 1084

原创 大数据开发必备技能_第二阶段14_Oracle 分区表技术深度解析

分区表是通过将大表物理拆分为多个小表来优化性能的技术,逻辑上仍保持为单一表。核心价值:提升查询效率(减少全表扫描) , 简化数据管理(按分区维护) ,增强可用性(分区故障隔离) , 平衡I/O负载(分布到不同存储)

2025-04-14 14:56:16 737

原创 大数据开发必备技能_第二阶段13_增量同步技术解析与实践指南

增量同步是一种仅同步源表新增或修改数据的高效方法,适用于数据量大或高频更新的场景。其核心逻辑是存在则更新,不存在则插入,通过MERGE INTO语句实现。本文通过代码示例、存储过程设计和实战练习,详解增量同步的实现流程,并提供面试题与总结,帮助读者快速掌握技术要点。

2025-04-11 09:33:10 852

原创 大数据开发必备技能_第二阶段12_全量同步技术解析与实践指南

全量同步是一种通过直接覆盖目标表数据实现数据一致性的方法。其核心逻辑是先清空目标表,再将源表数据完整插入,适用于数据量小或对实时性要求不高的场景。本文通过代码示例、存储过程设计和动态SQL应用,详解全量同步的实现流程,并提供练习与面试题,帮助读者快速掌握技术要点。

2025-04-11 09:24:26 709

原创 大数据开发必备技能_第二阶段11_级联更新技术分享文档

级联更新(Cascade Update)是一种在关联表中根据主表数据动态更新从表数据的操作。本文通过实际场景(根据客户年龄调整交易余额)演示以下内容:核心需求:客户年龄小于18岁时,其所有交易余额减少 年龄*10。实现方式:UPDATE、MERGE INTO 和 PL/SQL 游标。性能对比:不同方法的适用场景与效率差异。

2025-04-11 08:00:00 1065

原创 大数据开发必备技能_第二阶段10_日志表技术分享文档

日志表(Log Table)用于记录数据库操作的关键信息,如数据同步的源表、目标表、执行步骤、影响行数、状态(成功/失败)、时间戳及错误详情。其核心价值在于:调试与监控:快速定位程序错误步骤及原因。性能优化:通过执行时间分析 SQL 效率。数据验证:检查同步逻辑的正确性(如行数匹配)。

2025-04-10 09:26:55 885

原创 大数据开发必备技能_第二阶段09_PL/SQL 包技术分享文档

动态SQL通过灵活执行参数化SQL与DDL操作,结合PL/SQL包的模块化封装与管理,全面提升了数据库开发的灵活性、性能及代码可维护性。

2025-04-10 09:20:52 522

原创 大数据开发必备技能_第二阶段08_动态 SQL 技术分享文档

动态 SQL 技术

2025-04-10 08:37:05 837

原创 大数据开发必备技能_第二阶段07_自定义函数技术文档

Oracle自定义函数技术文档

2025-04-09 09:38:50 889

原创 大数据开发必备技能_第二阶段06_SQL异常处理技术文档

异常是程序执行过程中因数据错误、参数问题或逻辑错误导致的中断。通过异常处理机制,可以优雅地应对错误,避免程序崩溃。sqlDECLARE-- 定义异常BEGIN-- 触发异常END IF;EXCEPTIONDBMS_OUTPUT.PUT_LINE('数据范围不能为负数!');END;sqlBEGIN-- 违反唯一约束COMMIT;EXCEPTION-- 输出错误信息END;关键点系统异常自动触发,用户异常需显式声明和抛出。异常处理支持事务回滚,保障数据一致性。

2025-04-09 09:15:00 627

原创 大数据开发必备技能_第二阶段05_SQL触发器技术文档

SQL触发器

2025-04-09 09:00:00 428

原创 大数据开发必备技能_第二阶段03_存储过程

本文档提供存储过程的基础语法、实战示例及面试题解析,适合开发者和数据库管理员学习参考。

2025-04-08 09:00:00 703

原创 大数据开发必备技能_第二阶段04_游标技术文档

本文档涵盖游标的基础语法、实战示例及面试题解析,适合开发者和DBA学习使用。通过练习可快速掌握游标的核心用法。

2025-04-08 09:00:00 1013

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除