线性回归分析用户留存率(引入哑变量)
业务背景:公司有一款工具类产品,核心功能是检索,下个月的KPI之一是提升用户留存率;
思考:如何提升,如何找影响留存率的指标?对于该模块而言,最敏捷的指标就是点击率,那么,我们下个月来追点击率能否为产品的留存率做出较大贡献?
用R语言进行实现,首先我们从友盟导出半年的点击和留存数据读到R中,具体代码如下:
#数据读取
> library(readxl)
> hit_rate_sample <- read_excel("hit_rate_sample.xlsx")
#查看数据集
> head(hit_rate_sample)
> plot(hit_rate_sample$hit_rate_pv,hit_rate_sample$`7d_active_rate`)
#清洗数据
> hit_rate_sample=hit_rate_sample[-which(hit_rate_sample$`7d_active_rate`==0),]
#建立回归
两变量相关系数
> cor(hit_rate_sample$`7d_active_rate`,hit_rate_sample$hit_rate_pv)
>hit_rate_sample_lm=lm(hit_rate_sample$`7d_active_rate`