概要
dssm简要笔记
word hashing
n-gram: #good# → #go, goo, ood, od#
问题: collision rate 非常小,可以忽略
优点:
- 大大降低了vocabulary的维度 500k → 30k
- 有共同字的词语会map到相近的空间
word hashing is able to map morphological variations of the same word to the points that are cloase to each other in the letter n-gram space
- 对unknown词汇比较robust
letter n-gram based word hashing is robust to the out-of-vocabulary problem
模型结构
单塔是 DNN
激活函数: tanh
训练过程
采样
正例 有点击
负例 从无点击的随机采样四条,论文说对无点击样本采用不同的采样策略并没有什么差异
Loss
同一个query下的doc点击概率采用softmax计算,优化目标是最大化正例的点击概率
评估
采用NDCG在人工标注(0-4档)的样本上进行评估
并计算差异的显著性 p < 0.05