优点
- 学到了更好的兴趣向量,通过增加一个预测任务实现的,该任务用兴趣向量预测下个点击item。
- 学到了兴趣的演化,通过attention机制让与当前商品相似的浏览历史权重增大,突出重点。例如当前浏览的是衣服,那么应该重点参考浏览历史中的衣服,而浏览历史中的书籍等其他不相关内容,应该降低权重或直接去掉。
- DIEN比DIN强在哪里?用GRU隐藏向量替代了直接的物品向量?
疑问
- DICE是什么?
改进点
- 辅助损失函数的负样本取得不好,基本只考虑了随机负样本,只能区分大的性趣差异,无法区分细微的兴趣差异。可以使用ELECTRA的方法,用生成器产生小差异的负样本,然后用判别器去学习细微的兴趣差异。
- 注意力函数的改进。softmax用指数函数让强的更强,弱的更弱,但是弱的并没有完全消失。如果要让强的更集中,可以只取其中topk个,k为1时就是最大值。根据二八原则,可能取前20%会是个好选择。这样训练出的注意力将更集中和精确。
- 双层GRU部分似乎还有优化空间,例如用transfermer替换GRU?