数据分析工作前瞻

棹歌远

已于 2022-03-18 00:53:42 修改

阅读量3.2k

点赞数

文章标签：其他

于 2022-03-07 09:51:38 首次发布

本文链接：https://blog.csdn.net/weixin_45065245/article/details/123316260

版权

随机试验是一种最常用的方法，我们在工作中常用的A/B test就是随机试验的一种。RCT最重要的就是找一个好的问题（可以测量、精确性），这需要

在开启A/B test前可以考虑先进性AAtest，其作用可以参考这篇文章
AB test 中的AA test有什么作用？
在做实验后，除了记录我们关心的自变量和因变量，我们还要关注其他变量，理由如下：

A/B测试理想中需要：

讲完了大致的流程，那么来回答这样一个问题，RCT是否能解决所有的问题？答案当然是不能。RCT不能解决Non compliance问题、不能解决heterogeneous treatment effect问题等等。

T检验和卡方检验是统计学中常用的检验方法，分别对应不同场景，大概可以概括为

以上是可以做RCT的情况。而如果没有RCT，我们也可以用已有数据进行因果推断。
比如我们可以用panel data跑简单的线性回归模型，一些产品间的差异我们就用one-hot encoding来控制。简单罗列一下有：

举个简单例子：考虑某一活动上线后，参与和未参与用户的活跃度变化
步骤如下：

上述是一个理想情况下的DID分析，为什么说是理想情况呢？因为我们假定数据符合平行趋势假定，即控制组与实验组的变化趋势是一致。我们可以通过看活动上线前后两组差异的变化是否显著来检验平行趋势。
如果平行趋势检验不通过，可以考虑重采样、matching和去除异常日期（数据）

动态面板dynamic panel
合成控制synthetic control
矩阵补全
- 优点：不同用户参加试验时间可以不一样；实验组可以有多个样本；没有模型的假设
- 缺点：无法做统计推断（实验组有多个用户且时间不一样）；需要调参找 $\lambda$ ；矩阵运算慢

基于决策树和随机森林的heterogeneous treatment effect

关注