- 博客(18)
- 收藏
- 关注
原创 HIVE SQL 优化
因为count distinct操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成,一般count distinct使用先group by再count的方式替换,虽然会多用一个Job来完成,但在数据量大的情况下,这个绝对是值得的。数据倾斜的原理都知道,就是某一个或几个key占据了整个数据的90%,这样整个任务的效率都会被这个key的处理拖慢,同时也可能会因为相同的key会聚合到一起造成内存溢出。其中在开发过程中主要涉及到的可能是SQL优化这块。
2023-10-16 18:02:09
1465
2
原创 SQL—模糊查询:like
模糊查询指的是在数据中按照一定模糊的条件进行搜索。模糊查询的核心在于通配符的使用,通过使用通配符可以匹配不同的字符或字符串。
2023-08-18 16:23:40
3985
1
原创 SQL—解决多维度随机组合查询场景:grouping sets函数
通过grouping sets函数,极大提高我们的开发效率,即使有更多维度组合的增加,只需要在grouping sets函数中新增即可,当然案例中姓名不具有实质性分组聚合意义,数据的展示问题需要做进一步处理,但相较于大量的union,grouping sets函数已经可以极大的对代码进行调优。
2023-08-02 12:22:42
3409
1
原创 数据仓库——数据集市
这里我们先回忆一下数据仓库的定义, 数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( Time Variant) 的数据集合用于支持管理决策。今天我们介绍一个在数仓中非常常见的概念——数据集市,数仓定义中的五个特性都值得一一仔细品味,随着你对数仓的理解加深,你对这个五个特性的理解也会更加全面。
2023-07-20 15:09:46
1323
原创 数据仓库——数仓治理
数据仓库是一个集中式存储库,用于存储结构化数据(数据库表、Excel 工作表)和半结构化数据(XML 文件、网页),以便进行报告和分析。数据从各种源(如销售点系统、业务应用程序和关系数据库)流入,通常会在到达仓库之前进行清理和标准化。由于数据仓库可以存储大量信息,因此用户可以轻松访问大量历史数据,这些数据可用于数据挖掘、数据可视化和其他形式的商业智能报告。数据仓库分层原理_纠结&安然的程序猿的博客-CSDN博客。
2023-07-19 17:41:04
409
原创 ETL及其稳定性建设
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节。通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。
2023-07-18 15:53:34
1012
1
原创 数据仓库——分层原理
一、数仓建模的意义,为什么要对数据仓库分层?只有用数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。1、清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。数据关系条理化:源系统间存在复杂的数据关系,比如客户信息同时存在于核心系统、信贷系统、理财系统、资金系统,取数时该如何决策呢?数据仓库会对相同主题的数据进行统一建模,把复杂的数据关系梳理成条理清晰的数据模型,使用时就可避免上述问题了。2、数据血缘
2023-07-17 16:19:03
8127
3
原创 Mysql用同一张表查询的结果删除此表的数据报错
Mysql用同一张表查询的结果删除此表的数据报错[DELETE - 0 row(s), 0.000 secs] [Error Code: 1093, SQL State: HY000] You can't specify target table 'TBL_NODE' for update in FROM clauseCode: 1093 SQL State: HY000 --- You can't specify target table 'TBL_NODE' for update in FROM
2023-01-10 16:05:10
382
原创 MySQL-常用函数:字符串函数、数学函数、时间日期转换函数、类型转换函数、条件函数
MySQL-常用函数:字符串函数、数学函数、时间日期转换函数、类型转换函数、条件函数
2022-12-30 16:01:37
259
原创 SQL开窗函数-排序:rank、dense_rank、row_number
SQL开窗函数-排序:rank、rank_number、dense_rank
2022-12-23 11:35:35
4259
2
原创 MYSQL时间转换计算
字符串转换成时间类型to_timestamp()、字符串转化成时间类型 to_date()、时间类型转化成字符串 to_char()、获取当前时间 now() 获取当前日期 current_date、时间计算 减一天:-day 减一小时:-1h 减一分钟:-1minute 减一秒:-1s
2022-12-22 15:32:40
3048
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人