- 博客(45)
- 收藏
- 关注
原创 日期维度的创建
from cn_ads_dev_dl_tables.ads_sc_repl_cloud_monitor_recap_df where ts = ‘2024-04-23’ – 旧数据。from cn_ads_dev_dl_tmp.ads_sc_repl_cloud_monitor_recap_fc_df_tmp501 – 新数据。
2024-05-07 20:58:39 460
原创 sql练习题
欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入MarkdownText-to-HTMLAuthorsJohnLuke。
2024-01-28 15:56:49 763
原创 数据倾斜的原理和解决方案
第一,在做Join关联的时候其中一个表比较小,但是key集中,会导致分发到某一个或者几个reduce,stage上的数据远远高于平均值。第二,大表和大表关联时,分桶的判断字段0值或者空值太多,这些空值会由一个reduce,stage来处理,非常慢。第四,count distinct 某特殊值过多 ,处理此特殊值的reduce stage非常耗时。第三,groupby 的时候维度过小,某值的数量过多,处理某值的reduce非常耗时。
2024-01-09 11:02:52 385
原创 id-mapping介绍
缓慢变化维是在维表设计中常见的一种方式,维度并不是不变的,随时间也会发生缓慢变化。如用户的手机号、邮箱等信息可能会随用户的状态变化而改变,再如商品的价格也会随时间变化而调整上 架的价格。因此在设计用户、商品等维表时会考虑用缓慢变化维来开发。同样,在设计ID-Mapping表时,由于一个用户可以在多个设备上 登录,一个设备也能被多个用户登录,所以考虑用缓慢变化维表来记录这种不同时间点的状态变化(图3-9)。对于该拉链表,可查看某日(如20190801)的快照数据。
2023-12-08 15:44:42 469
原创 sqoop的全量增量导入数据
查看hdfs 上的文件[root@hadoop161 ~]# hadoop fs -ls /user/hive/warehouse/bilibili[root@hadoop161 ~]# hadoop fs -cat /user/hive/warehouse/bilibili/part-*复制表结构到HIVE,同时复制全量数据sqoop import–connect jdbc:mysql://hadoop161:3306/datax –username clds –password clds –t
2023-11-16 09:52:34 66
原创 mapjoin相关问题
mapjoin的基本原理是:在小数据量情况下,SQL会将用户指定的小表全部加载到执行join操作的程序的内存中,从而加快join的执行速度。当一个大表和一个或多个小表做join时,可以使用mapjoin,性能比普通的join要快很多。如果使用mapjoin,则所有小表占用的内存总和不得超过512MB;在mapjoin中,可以使用不等值连接或者使用or连接多个条件;多个表join时,最左边的两个表不能同时是mapjoin的表。使用mapjoin时需要引用小表或是子查询时,需要引用别名;
2023-06-20 16:25:11 379
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人