论文笔记《Learning deep structured semantic models for web search using clickthrough data》

WUNNAN

已于 2023-06-01 10:49:16 修改

阅读量285

点赞数

分类专栏： NLP 文章标签：深度学习人工智能

于 2022-06-12 16:17:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51154479/article/details/125246395

版权

NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

链接：Learning deep structured semantic models for web search using clickthrough data

一、原理：

使用DNN将序列和文本融合到共同的低维空间，并使用余弦相似度计算两者的距离；

为了处理常见任务中的大规模语料，采用了word hashing

二、模型架构

在这里插入图片描述

$X$ 为输入层， $Y$ 为输出层， $l 1, l 2, l 3$ 为隐藏层

$l1 = W_1X$

$l_i = f(W_il_{i-1} + b_i), i=2,...,N-1$

$y = f(W_Nl_{N-1} + b_N)$

激活函数 $t anh$ ， $\frac{1 - e^{-2x}}{1 + e^{-2x}}$ ，放置在输出层和隐藏层 $l_i, i=2,...,N-1$

余弦相似度计算： $cosine(y_Q, y_D) = \frac{y_Q^T y_D}{||{y_Q}||||y_D||}$

1. word hashing

目的：减少词袋模型词向量的维度，基于字母 $n - g r am$

示例: #good# 当n=3, 可得到 #go, goo, ood, od#

与one-hot相比，word hashing可以用更低维度的向量去表示文本

2. DSSM模型训练

通过softmax 函数可以把query 与样本 doc 的语义相似性转化为一个后验概率
在这里插入图片描述

其中 $\gamma$ 是一个softmax函数的平滑因子，
， $D$ 表示被排序的候选文档集。

理想状态下， $D$ 应该包含所有可能的文档；

在实际中，每一个 $(q u ery, c l i c k e d - d oc u m e n t)$ 对，用 $Q, D^+)$ 表示，其中Q表示序列， $D^+$ 是被点击的文档；

假设 $D$ 包含 $D^+$ 和4个随机挑选的未被点击过的文档（使用{ $D^-_j; j=1,...,4$ }表示）

最小化损失函数：

其中 $\Lambda$ 表示神经网络的参数 ${w_i, b_i}$ 的集合

3.模型细节

$l 1$ : word hashing(trigrams), 30k nodes，

$l 2$ 和 $l 3$ : 300 hidden nodes

$Y$ : 128 nodes

word hashing 基于一个固定的投影矩阵
similarity 基于128维度的输出层计算

权重初始化：uniform distribution

range： $-\sqrt{6/fanin + fanout}, \sqrt{6/fanin + fanout} ]$

$f ainin 是输入层的单元数， f an o u t 是输出层的单元数$

优化器：SGD

min-batch = 1024

train epoches = 20

模型实现

https://github.com/Fanynwork/NLPmodels
结果没有使用cos计算，换成了分类器，文本匹配可以当作是一个二分类问题。
有过拟合情况，添加了norm和dropout层，但效果不太好
正确率在68%-69%之间，没有使用预训练词向量。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。