自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 数据分析之AB实验

AB实验的基本思想是控制变量,尽量保证除了实验本身改进的功能点以外,其他变量保持一致。具体要看:①人群是否同质。②时间是否一致。进一步衍生出,以下几种方法检验实验分流是否均匀:①AA实验。A/A:在AB实验上线前,先将实验组和对照组在没上实验策略的情况下空跑一段时间。A/B/A:将对照组再拆分成两个组,从整体看,将产生2个对照组,1个实验组,比较两个对照组。②与实验上线前对比。如果实验是按尾号划分,可对比两组尾号在实验上线前是否在核心指标存在明显差异;

2024-05-09 17:39:12 493

原创 SQL语法常见问题(持续更新)

一、基础语句本人互联网大厂数据分析师,工作3年,对日常的SQL疑点进行持续梳理,希望互相学习一起进步一、基础语句1. 语句执行顺序窗口函数在where、having后执行,如有partition by,在执行完select之后,在所得结果集之上进行partition by分组。2. where 和 having 的区别1)where的执行顺序在having之前,先筛选再计算,效率更高;2)having接聚合函数,where不可以接;3)having前要group by,where没有限制。

2024-04-30 14:55:07 541 4

原创 SQL如何解决数据倾斜

简单来说,在表z中新增一列number,表x的每一行数都分别对应number列中的数值1-5(即将表z的每一行数据膨胀5倍),然后表y在跟表x关联时,不仅要关联之前的关联键,还要关联CAST(rand() * 5 + 1 AS INT) = 表z的number,这样就能起到打散的作用了。简单来说,数据倾斜就是一张表的关联键或者聚合键中,某个或者某些特定数值出现的频率远大于其它数值,经过shuffle之后,某些节点的计算量远大于其他节点,使得hadoop无法发挥分布式计算的优势,最终导致计算时间过长。

2024-04-28 10:10:20 302 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除