一、背景
通用范式的特征交叉指的是通过组合两个(或多个)特征来学习特征间非线性的组合高阶表达,其收益则是来自通过挖掘特征之间的共现组合,拓展了特征输入的表达,从而使得模型能更容易的学习到共现组合提供的信息。
工业实现方案分为非参数化方案和参数化方案:
非参数化方案:显式的表达特征交叉ID,例如特征求交,笛卡尔积特征等。
参数化方案:主要通过模型参数隐式拟合的形式去捕捉特征的非线性组合能力,而参数化方案在DNN基础上的创新迭代又主要分为以下两类范式:
- 范式一:通过模型参数拟合的过程中能够明确特征的交互关系,例如DeepFM,IPNN,ONN,以及本文的CAN。
- 范式二:无法明确特征具体交互关系,通过设计更复杂的后端网络追求特征的implict组合和高阶融合,例如DCN,xDeepFM,FIBNET。
传统笛卡尔缺点:
- 参数爆炸,将给在离线系统带来巨大的负担;
- 组合之间不存在信息共享,笛卡尔积产生一个新的特征和相应的嵌入。由于不同的特征对可能具有相同的特征,因此任意两个特征对之间存在隐含的相似度,而笛卡尔积忽略了这一点。