推荐系统模型通常通过嵌入表示各种稀疏特征,如用户、项目和分类特征。一个标准的方法是将每个唯一的特征值映射到一个嵌入向量。生成的嵌入表的大小随着词汇表的大小线性增长。因此,庞大的词汇表不可避免地导致巨大的嵌入表,从而产生两个严重的问题:(i)在资源受限的环境下使模型服务难以处理;(ii)导致过拟合问题。本文寻求为推荐系统(recsys)中的大词汇表稀疏特征学习高度紧凑的嵌入。首先,证明了新的可微积量化(DPQ)方法可以推广到recsys问题。此外,为了更好地处理recsys中常见的幂律数据分布,提出了一种多粒度量化嵌入(Multi-Granular Quantized embedding, MGQE)技术,为不频繁项学习更紧凑的嵌入。本文试图提供一个新的角度,以紧凑的模型大小来提高推荐性能。在三个推荐任务和两个数据集上的广泛实验表明,可以取得与原始模型相当或更好的性能,而模型大小仅为原始模型的20%。
问题:
嵌入表的规模随着词汇量的增加而线性增长,这导致了两个严重的问题:(i)使模型在资源受限的环境下难以服务;(ii)由于过参数化而导致过拟合问题。
方案:
本文表明,基于量化的嵌入压缩方法DPQ (differentiated Product Quantization)[6]可以推广到recsys任务。提出了多粒度量化嵌入(Multi-granular Quantized Embeddings, MGQE),以可变的嵌入容量扩展了DPQ,以适应recsys任务中高度倾斜的数据分布。与完整模型相比,MGQE显著减小了模型大小,并具有与完整模型相当或更好的性能。
2 MULTI-GRANULAR QUANTIZED EMBEDDINGS