纠结安然猿
码龄5年
关注
提问 私信
  • 博客:39,435
    39,435
    总访问量
  • 18
    原创
  • 1,932,329
    排名
  • 1,172
    粉丝
  • 56
    铁粉

个人简介:搞笑男一枚

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2019-12-12
博客简介:

weixin_46010244的博客

查看详细资料
个人成就
  • 获得45次点赞
  • 内容获得11次评论
  • 获得165次收藏
创作历程
  • 12篇
    2023年
  • 6篇
    2022年
成就勋章
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

HIVE SQL 优化

因为count distinct操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成,一般count distinct使用先group by再count的方式替换,虽然会多用一个Job来完成,但在数据量大的情况下,这个绝对是值得的。数据倾斜的原理都知道,就是某一个或几个key占据了整个数据的90%,这样整个任务的效率都会被这个key的处理拖慢,同时也可能会因为相同的key会聚合到一起造成内存溢出。其中在开发过程中主要涉及到的可能是SQL优化这块。
原创
发布博客 2023.10.16 ·
1452 阅读 ·
1 点赞 ·
2 评论 ·
17 收藏

SQL—模糊查询:like

模糊查询指的是在数据中按照一定模糊的条件进行搜索。模糊查询的核心在于通配符的使用,通过使用通配符可以匹配不同的字符或字符串。
原创
发布博客 2023.08.18 ·
3952 阅读 ·
4 点赞 ·
1 评论 ·
5 收藏

SQL—解决多维度随机组合查询场景:grouping sets函数

通过grouping sets函数,极大提高我们的开发效率,即使有更多维度组合的增加,只需要在grouping sets函数中新增即可,当然案例中姓名不具有实质性分组聚合意义,数据的展示问题需要做进一步处理,但相较于大量的union,grouping sets函数已经可以极大的对代码进行调优。
原创
发布博客 2023.08.02 ·
3269 阅读 ·
7 点赞 ·
1 评论 ·
19 收藏

数据仓库——数据集市

这里我们先回忆一下数据仓库的定义, 数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( Time Variant) 的数据集合用于支持管理决策。今天我们介绍一个在数仓中非常常见的概念——数据集市,数仓定义中的五个特性都值得一一仔细品味,随着你对数仓的理解加深,你对这个五个特性的理解也会更加全面。
原创
发布博客 2023.07.20 ·
1314 阅读 ·
0 点赞 ·
0 评论 ·
10 收藏

数据仓库——数仓治理

数据仓库是一个集中式存储库,用于存储结构化数据(数据库表、Excel 工作表)和半结构化数据(XML 文件、网页),以便进行报告和分析。数据从各种源(如销售点系统、业务应用程序和关系数据库)流入,通常会在到达仓库之前进行清理和标准化。由于数据仓库可以存储大量信息,因此用户可以轻松访问大量历史数据,这些数据可用于数据挖掘、数据可视化和其他形式的商业智能报告。数据仓库分层原理_纠结&安然的程序猿的博客-CSDN博客。
原创
发布博客 2023.07.19 ·
402 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

ETL及其稳定性建设

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节。通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。
原创
发布博客 2023.07.18 ·
1004 阅读 ·
3 点赞 ·
1 评论 ·
5 收藏

数据仓库——分层原理

一、数仓建模的意义,为什么要对数据仓库分层?只有用数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。1、清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。数据关系条理化:源系统间存在复杂的数据关系,比如客户信息同时存在于核心系统、信贷系统、理财系统、资金系统,取数时该如何决策呢?数据仓库会对相同主题的数据进行统一建模,把复杂的数据关系梳理成条理清晰的数据模型,使用时就可避免上述问题了。2、数据血缘
原创
发布博客 2023.07.17 ·
8100 阅读 ·
12 点赞 ·
3 评论 ·
77 收藏

2.数据挖掘:需要了解的数学知识

数据挖掘:需要了解的数学知识
原创
发布博客 2023.01.30 ·
1159 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏

1.数据挖掘:需要了解的基本概念

数据挖掘基本概念
原创
发布博客 2023.01.18 ·
369 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

MySQL 为什么在实际开发中一般不使用外键约束

MySQL 为什么在实际开发中一般不使用外键约束
原创
发布博客 2023.01.18 ·
1270 阅读 ·
3 点赞 ·
0 评论 ·
1 收藏

离散数据与连续数据区别

离散数据和连续数据
原创
发布博客 2023.01.18 ·
6461 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

Mysql用同一张表查询的结果删除此表的数据报错

Mysql用同一张表查询的结果删除此表的数据报错[DELETE - 0 row(s), 0.000 secs] [Error Code: 1093, SQL State: HY000] You can't specify target table 'TBL_NODE' for update in FROM clauseCode: 1093 SQL State: HY000 --- You can't specify target table 'TBL_NODE' for update in FROM
原创
发布博客 2023.01.10 ·
374 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

MySQL-常用函数:字符串函数、数学函数、时间日期转换函数、类型转换函数、条件函数

MySQL-常用函数:字符串函数、数学函数、时间日期转换函数、类型转换函数、条件函数
原创
发布博客 2022.12.30 ·
255 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

MySQL-连接查询:左连接、右连接、全连接、内连接

MySQL-连接查询:左连接、右连接、全连接、内连接
原创
发布博客 2022.12.29 ·
1014 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

SQL常见查询-SELECT

MYSQL常见查询-SELECT,FIRST_VALUE、LEAD、
原创
发布博客 2022.12.23 ·
223 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

SQL开窗函数-排序:rank、dense_rank、row_number

SQL开窗函数-排序:rank、rank_number、dense_rank
原创
发布博客 2022.12.23 ·
4227 阅读 ·
3 点赞 ·
2 评论 ·
14 收藏

MYSQL时间转换计算

字符串转换成时间类型to_timestamp()、字符串转化成时间类型 to_date()、时间类型转化成字符串 to_char()、获取当前时间 now() 获取当前日期 current_date、时间计算 减一天:-day 减一小时:-1h 减一分钟:-1minute 减一秒:-1s
原创
发布博客 2022.12.22 ·
3042 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

MYSQL 创建表、修改表、插入数据、删除表

MySql 建表、删除表、修改表、修改表数据、删除表数据等操作语句
原创
发布博客 2022.12.22 ·
1370 阅读 ·
2 点赞 ·
1 评论 ·
1 收藏
加载更多