【论文】dssm笔记


概要

dssm简要笔记


word hashing

n-gram: #good# → #go, goo, ood, od#

问题: collision rate 非常小,可以忽略

优点:

  • 大大降低了vocabulary的维度 500k → 30k
  • 有共同字的词语会map到相近的空间

word hashing is able to map morphological variations of the same word to the points that are cloase to each other in the letter n-gram space

  • 对unknown词汇比较robust

letter n-gram based word hashing is robust to the out-of-vocabulary problem

模型结构

请添加图片描述

单塔是 DNN

激活函数: tanh
请添加图片描述

训练过程

采样

正例 有点击

负例 从无点击的随机采样四条,论文说对无点击样本采用不同的采样策略并没有什么差异

Loss

同一个query下的doc点击概率采用softmax计算,优化目标是最大化正例的点击概率
请添加图片描述
请添加图片描述

评估

采用NDCG在人工标注(0-4档)的样本上进行评估

并计算差异的显著性 p < 0.05


References

Huang, Po-Sen, et al. “Learning deep structured semantic models for web search using clickthrough data.” Proceedings of the 22nd ACM international conference on Information & Knowledge Management. 2013.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值