- 博客(3)
- 收藏
- 关注
原创 数据分析之AB实验
AB实验的基本思想是控制变量,尽量保证除了实验本身改进的功能点以外,其他变量保持一致。具体要看:①人群是否同质。②时间是否一致。进一步衍生出,以下几种方法检验实验分流是否均匀:①AA实验。A/A:在AB实验上线前,先将实验组和对照组在没上实验策略的情况下空跑一段时间。A/B/A:将对照组再拆分成两个组,从整体看,将产生2个对照组,1个实验组,比较两个对照组。②与实验上线前对比。如果实验是按尾号划分,可对比两组尾号在实验上线前是否在核心指标存在明显差异;
2024-05-09 17:39:12
493
原创 SQL语法常见问题(持续更新)
一、基础语句本人互联网大厂数据分析师,工作3年,对日常的SQL疑点进行持续梳理,希望互相学习一起进步一、基础语句1. 语句执行顺序窗口函数在where、having后执行,如有partition by,在执行完select之后,在所得结果集之上进行partition by分组。2. where 和 having 的区别1)where的执行顺序在having之前,先筛选再计算,效率更高;2)having接聚合函数,where不可以接;3)having前要group by,where没有限制。
2024-04-30 14:55:07
541
4
原创 SQL如何解决数据倾斜
简单来说,在表z中新增一列number,表x的每一行数都分别对应number列中的数值1-5(即将表z的每一行数据膨胀5倍),然后表y在跟表x关联时,不仅要关联之前的关联键,还要关联CAST(rand() * 5 + 1 AS INT) = 表z的number,这样就能起到打散的作用了。简单来说,数据倾斜就是一张表的关联键或者聚合键中,某个或者某些特定数值出现的频率远大于其它数值,经过shuffle之后,某些节点的计算量远大于其他节点,使得hadoop无法发挥分布式计算的优势,最终导致计算时间过长。
2024-04-28 10:10:20
302
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人