自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 doris删除语句

后端

2024-06-01 12:22:16 520

原创 a表存在b表不存在的数据

第二种:在卡法中最常见的left join 方法,实现数据的过滤。

2024-05-07 21:00:06 338

原创 日期维度的创建

from cn_ads_dev_dl_tables.ads_sc_repl_cloud_monitor_recap_df where ts = ‘2024-04-23’ – 旧数据。from cn_ads_dev_dl_tmp.ads_sc_repl_cloud_monitor_recap_fc_df_tmp501 – 新数据。

2024-05-07 20:58:39 458

原创 全字段比对的sql

【代码】全字段比对的sql。

2024-05-07 20:58:00 384

原创 sql练习题

欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入MarkdownText-to-HTMLAuthorsJohnLuke。

2024-01-28 15:56:49 758

原创 onedata数据建模

转载地址经验总结,收获。

2024-01-25 09:23:55 416

原创 oracle的to_char函数

转载地址。

2024-01-17 18:27:04 393

原创 数据倾斜的原理和解决方案

第一,在做Join关联的时候其中一个表比较小,但是key集中,会导致分发到某一个或者几个reduce,stage上的数据远远高于平均值。第二,大表和大表关联时,分桶的判断字段0值或者空值太多,这些空值会由一个reduce,stage来处理,非常慢。第四,count distinct 某特殊值过多 ,处理此特殊值的reduce stage非常耗时。第三,groupby 的时候维度过小,某值的数量过多,处理某值的reduce非常耗时。

2024-01-09 11:02:52 383

原创 id-mapping介绍

缓慢变化维是在维表设计中常见的一种方式,维度并不是不变的,随时间也会发生缓慢变化。如用户的手机号、邮箱等信息可能会随用户的状态变化而改变,再如商品的价格也会随时间变化而调整上 架的价格。因此在设计用户、商品等维表时会考虑用缓慢变化维来开发。同样,在设计ID-Mapping表时,由于一个用户可以在多个设备上 登录,一个设备也能被多个用户登录,所以考虑用缓慢变化维表来记录这种不同时间点的状态变化(图3-9)。对于该拉链表,可查看某日(如20190801)的快照数据。

2023-12-08 15:44:42 462

原创 in和exists的区别和关系

in exists 效率

2023-11-29 18:10:42 402

原创 sqoop的全量增量导入数据

查看hdfs 上的文件[root@hadoop161 ~]# hadoop fs -ls /user/hive/warehouse/bilibili[root@hadoop161 ~]# hadoop fs -cat /user/hive/warehouse/bilibili/part-*复制表结构到HIVE,同时复制全量数据sqoop import–connect jdbc:mysql://hadoop161:3306/datax –username clds –password clds –t

2023-11-16 09:52:34 60

原创 sql的最优解

【代码】sql的最优解。

2023-07-19 18:32:30 65

原创 行转列,列转行,新的理解

题目 求语文课程成绩大于英语课程成绩的学生的学号。

2023-07-19 16:43:20 75

原创 连续登陆问题,分组问题

连续登陆

2023-07-19 14:36:35 63

原创 mapjoin相关问题

mapjoin的基本原理是:在小数据量情况下,SQL会将用户指定的小表全部加载到执行join操作的程序的内存中,从而加快join的执行速度。当一个大表和一个或多个小表做join时,可以使用mapjoin,性能比普通的join要快很多。如果使用mapjoin,则所有小表占用的内存总和不得超过512MB;在mapjoin中,可以使用不等值连接或者使用or连接多个条件;多个表join时,最左边的两个表不能同时是mapjoin的表。使用mapjoin时需要引用小表或是子查询时,需要引用别名;

2023-06-20 16:25:11 376

转载 hive动态分区和静态分区表写法的区别和异同

动态分区和静态分区

2023-04-07 15:36:17 86

原创 电脑编辑软件的基本操作

基本操作

2023-04-07 14:54:19 114

原创 tez引擎分区失效的时候

分区

2023-03-26 16:53:37 97

原创 hive在on过滤和在where过滤的对比

关联

2023-03-26 16:48:02 301

原创 在Join条件中出现空值或者null值

hive优化

2023-02-10 11:52:07 429

原创 hive表间的四种优化

hive的优化问题

2023-01-30 10:10:52 931

转载 连续登陆的问题

连续登陆问题

2022-12-21 23:06:01 148

原创 常见的三种数据分析的方法,聚类分析/拉链表的更新

拉链表的更新

2022-12-16 19:18:34 110

转载 如何查询父子级关系的表

查询多级地区区域全部子集内容

2022-11-24 16:20:05 218

转载 拉链表数据的更新

拉链表

2022-11-21 16:04:28 449

原创 大数据Hadoop底层技术和原理

map reduce底层原理

2022-11-19 11:32:01 1050

转载 存储过程详解

存储过程入门

2022-11-18 18:00:57 636

转载 oracle/hive下两个大表的关联如何进行优化

ORACLE/HIVE下两个大表优化

2022-11-16 18:05:29 3959

原创 Hadoop的架构

大数据平台架构

2022-11-11 17:13:05 701

转载 Hive 窗口函数 实现原理

HIVE窗口函数实现的原理

2022-11-04 22:02:04 381

转载 hive的时间函数汇总

hive时间函数的汇总

2022-10-31 22:09:05 172

原创 面试函数问题和公式汇总

面试公式和函数汇总

2022-10-31 18:07:05 74

转载 数仓的设计2及验收标准,如何判断一个数据模型的好坏?数据仓库的 KPI 怎么定?

数仓的设计2

2022-10-27 16:23:02 526

原创 三范式,概念,逻辑模型和物理模型的区别

概念,逻辑,物理模型

2022-10-27 15:57:16 230

转载 Distributed Cache in Hadoop

Hadoop知识

2022-10-26 23:18:07 135

原创 金融知识---------本票,汇票,支票的区别

本票汇票支票

2022-10-24 10:12:22 579

转载 数仓各个分层的作用以及为啥要分层

数仓分层

2022-10-13 10:53:26 795

原创 HIVE 行转列,列转行函数比较

行转列,列转行对比

2022-10-11 16:59:02 531

原创 ETL工具的比较:DATASTAGE, KETTLE ,ODI ,SSIS

ETL工具

2022-10-11 15:36:45 1800

原创 hive 动态分区及常用的函数

hive函数

2022-09-26 12:53:01 551

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除