推荐系统
模型细节
数据划分方法
- 留出法 (二八分)
- k折交叉验证 (k分,每次取一份作为验证,训练k个模型)
- 自助采样(小数据集!有放回,少用)
- 时序划分(滑窗)
要求
-
所有数据划分方法要保证训练集与验证集分布一致
数据分析与建模 EDA
数据分析
- 两个标签的分布关系是什么?
- 用户的次日存留比例是多少?
- 用户次日继续观看的比例是多少?
- 用户平均观看一部video的花费是多少?
- 最终测试集的用户都有历史行为吗?(可以分不同类型用户建模)
建模方法
-
模型一:用户次日存留预测
模型:树模型
特征:提取用户行为特征,统计特征进行建模
-
模型二:用户视频观看预测
模型:深度学习
特征用户特征 & 视频特征
文本数值特征
文本特征
-
词袋
-
TD IDF
- 词向量
进阶思路
- 跑通baseline
- 构建本地模型,官方规则进行打分
- 加入特征交叉逻辑
- 将文本特征进行编码
- 加入统计特征和序列特征
上分关键 字段如何做交叉