自然网络语言模型(NNLM)

最新推荐文章于 2024-03-06 22:55:42 发布

吴云理

最新推荐文章于 2024-03-06 22:55:42 发布

阅读量1.5k

点赞数

文章标签：网络语言模型机器学习

本文链接：https://blog.csdn.net/wuyuanli_r/article/details/121971367

版权

"该博客探讨了如何使用神经网络语言模型（NNLM）进行文本序列中的词汇预测。通过将前n个词汇转化为d维向量并输入到神经网络中，经过tanh层和sigmoid层处理，计算条件概率P(w_t|w_{t-1}

摘要由CSDN通过智能技术生成

在一语料库中, 假设有长度为 T 的文本序列 $S:=w_{1}，w_{2}, \cdots, w_{T}$ . 如果选子序列 $S:=w_{t-1}，w_{t-2}, \cdots, w_{t-n+1}$ , 想预估词汇 $w_t$ 出现的概率, 即计算条件概率
$P(w_t| w_{t-1}，w_{t-2}, \cdots, w_{t-n+1}).$
可以使用 NNLM 的方法, 其工作流程见下图在这里插入图片描述
我们先假定语料库生成的词汇共有 v 个, 则每个词汇的 1-hot 为 v-维行向量.
第一步, 将词向量 $w_i$ , $i=t-1,\cdots,t-n+1$ , 投放到 d-维向量空间, d由个人选定. 此处使用的是 $\times d$ 矩阵C. 输出为 $w_i C$ , 将 n-1 个输出按顺序拼接成 $(n - 1) d$ -维行向量 x.

第二步, 将 x 输入到 tanh层中, 这是一个隐含层, 神经元个数可以自己选定设为 h. 于是有一 $\times (n-1)d$ 的转移矩阵, 设为 H. 这个层的输出为 h-维向量 y’=tanh(xH+ b’).

第三步, 将 $x, y^{'}$ 输入sigmoid 层, 输出为一个行向量 y_t, 输出的维度是 v. 这里两个转移矩阵 $W_{(n-1)d \times v}$ , $U_{h \times v}$ .
$y_t=sigmoid(b +xW + y'U).$

使用最大似然估计计算参数的值.
假定 $w_t$ 的索引是 $i_t$ , 令 $y_t(i_t)$ 表示 $y_t$ 的第 $i_t$ 个分量, 也即预测为 $w_t$ 的概率. 希望 $\prod_{t=1}^T y_t(i_t)$ 取最大值,
使用 log 后, 取均值, 变成希望
$L(H,b',W,b,C):=\frac{1}{T} \sum log \, y_t(i_t)$