自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 HIVE SQL 优化

因为count distinct操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成,一般count distinct使用先group by再count的方式替换,虽然会多用一个Job来完成,但在数据量大的情况下,这个绝对是值得的。数据倾斜的原理都知道,就是某一个或几个key占据了整个数据的90%,这样整个任务的效率都会被这个key的处理拖慢,同时也可能会因为相同的key会聚合到一起造成内存溢出。其中在开发过程中主要涉及到的可能是SQL优化这块。

2023-10-16 18:02:09 1465 2

原创 SQL—模糊查询:like

模糊查询指的是在数据中按照一定模糊的条件进行搜索。模糊查询的核心在于通配符的使用,通过使用通配符可以匹配不同的字符或字符串。

2023-08-18 16:23:40 3985 1

原创 SQL—解决多维度随机组合查询场景:grouping sets函数

通过grouping sets函数,极大提高我们的开发效率,即使有更多维度组合的增加,只需要在grouping sets函数中新增即可,当然案例中姓名不具有实质性分组聚合意义,数据的展示问题需要做进一步处理,但相较于大量的union,grouping sets函数已经可以极大的对代码进行调优。

2023-08-02 12:22:42 3409 1

原创 数据仓库——数据集市

这里我们先回忆一下数据仓库的定义, 数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( Time Variant) 的数据集合用于支持管理决策。今天我们介绍一个在数仓中非常常见的概念——数据集市,数仓定义中的五个特性都值得一一仔细品味,随着你对数仓的理解加深,你对这个五个特性的理解也会更加全面。

2023-07-20 15:09:46 1323

原创 数据仓库——数仓治理

数据仓库是一个集中式存储库,用于存储结构化数据(数据库表、Excel 工作表)和半结构化数据(XML 文件、网页),以便进行报告和分析。数据从各种源(如销售点系统、业务应用程序和关系数据库)流入,通常会在到达仓库之前进行清理和标准化。由于数据仓库可以存储大量信息,因此用户可以轻松访问大量历史数据,这些数据可用于数据挖掘、数据可视化和其他形式的商业智能报告。数据仓库分层原理_纠结&安然的程序猿的博客-CSDN博客。

2023-07-19 17:41:04 409

原创 ETL及其稳定性建设

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节。通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。

2023-07-18 15:53:34 1012 1

原创 数据仓库——分层原理

一、数仓建模的意义,为什么要对数据仓库分层?只有用数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。1、清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。数据关系条理化:源系统间存在复杂的数据关系,比如客户信息同时存在于核心系统、信贷系统、理财系统、资金系统,取数时该如何决策呢?数据仓库会对相同主题的数据进行统一建模,把复杂的数据关系梳理成条理清晰的数据模型,使用时就可避免上述问题了。2、数据血缘

2023-07-17 16:19:03 8127 3

原创 2.数据挖掘:需要了解的数学知识

数据挖掘:需要了解的数学知识

2023-01-30 13:14:42 1168

原创 1.数据挖掘:需要了解的基本概念

数据挖掘基本概念

2023-01-18 11:47:49 376

原创 MySQL 为什么在实际开发中一般不使用外键约束

MySQL 为什么在实际开发中一般不使用外键约束

2023-01-18 11:07:38 1275

原创 离散数据与连续数据区别

离散数据和连续数据

2023-01-18 11:00:51 6516

原创 Mysql用同一张表查询的结果删除此表的数据报错

Mysql用同一张表查询的结果删除此表的数据报错[DELETE - 0 row(s), 0.000 secs] [Error Code: 1093, SQL State: HY000] You can't specify target table 'TBL_NODE' for update in FROM clauseCode: 1093 SQL State: HY000 --- You can't specify target table 'TBL_NODE' for update in FROM

2023-01-10 16:05:10 382

原创 MySQL-常用函数:字符串函数、数学函数、时间日期转换函数、类型转换函数、条件函数

MySQL-常用函数:字符串函数、数学函数、时间日期转换函数、类型转换函数、条件函数

2022-12-30 16:01:37 259

原创 MySQL-连接查询:左连接、右连接、全连接、内连接

MySQL-连接查询:左连接、右连接、全连接、内连接

2022-12-29 11:42:39 1018

原创 SQL常见查询-SELECT

MYSQL常见查询-SELECT,FIRST_VALUE、LEAD、

2022-12-23 18:04:24 232

原创 SQL开窗函数-排序:rank、dense_rank、row_number

SQL开窗函数-排序:rank、rank_number、dense_rank

2022-12-23 11:35:35 4259 2

原创 MYSQL时间转换计算

字符串转换成时间类型to_timestamp()、字符串转化成时间类型 to_date()、时间类型转化成字符串 to_char()、获取当前时间 now() 获取当前日期 current_date、时间计算 减一天:-day 减一小时:-1h 减一分钟:-1minute 减一秒:-1s

2022-12-22 15:32:40 3048

原创 MYSQL 创建表、修改表、插入数据、删除表

MySql 建表、删除表、修改表、修改表数据、删除表数据等操作语句

2022-12-22 12:24:38 1376 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除