目前的CTR预估模型,实质上都是在“利用模型”进行特征工程上狠下功夫。传统的LR,简单易解释,但特征之间信息的挖掘需要大量的人工特征工程来完成。由于深度学习的出现,利用神经网络本身对于隐含特征关系的挖掘能力,成为了一个可行的方式。DNN本身主要是针对于高阶的隐含特征,而像FNN(利用FM做预训练实现embedding,再通过DNN进行训练,有时间会写写对该模型的认识)这样的模型则是考虑了高阶特征,而在最后sigmoid输出时忽略了低阶特征本身。
鉴于上述理论,目前新出的很多基于深度学习的CTR模型都从wide、deep(即低阶、高阶)两方面同时进行考虑,进一步提高模型的泛化能力,比如DeepFM。
很多文章只是简单对论文进行了翻译,本文重点则在于详细分析模型原理,包括给出论文中略过的模型推导细节,鉴于本人小白,因此如有问题,欢迎各位大牛指出改正。之后会尝试复现论文。好了废话不多说,下面开始装逼。
首先给出论文模型图,由于文章画的很好,就直接贴图了:
可以看到,整个模型大体分为两部分:FM和DNN。简单叙述一下模型的流程:借助FNN的思想,利用FM进行embedding,之后的wide和dee