详解语言模型

最新推荐文章于 2024-07-20 19:29:54 发布

ybdesire

最新推荐文章于 2024-07-20 19:29:54 发布

阅读量1.1k

点赞数

分类专栏： Python 神经网络 NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ybdesire/article/details/104524172

版权

Python 同时被 3 个专栏收录

78 篇文章 1 订阅

订阅专栏

42 篇文章 0 订阅

订阅专栏

19 篇文章 1 订阅

订阅专栏

1. 引入

语言模型是两种系统的基础

语音识别系统
机器翻译系统

所谓语言模型，能够告诉你，某个特定的句子（序列），出现的概率是多少。

举个例子，假设一个人说了一句话，这句话可能是如下两种文本中的一种

The apple and pair salad.
The apple and pear salad.

你觉得这个人说的是1的可能性大，还是2的可能性大？

语言模型能给你这两句话各自的可能性，p(text1)=0.002, p(text1)=0.003。所以是2的可能性更高。

2. 语言模型的构建过程

Tokenize

首先，我们得有corpus（语料），就是大量的文本数据。

然后，我们要做Tokenize：建立一个字典，将每个单词都转化成对应的one-hot向量。

如果你需要模型能准确识别句子结尾，那你还需要定义句子的结尾，一般用EOS（end of sentence）。

如果句子中有些词并没有在你的字典中出现过，那你就可以把这个单词替换为UNK（unique token），即代表未知词。

构建RNN

假设输入的文本为：

Cats average 15 hours of sleep a day.

（1）在第0个时刻，输入向量（x<1>）为0向量，对应的输入a<0>也为0向量，输出层用一个softmax来输出概率。他只是预测第一个词的概率，而不去管结果是什么。这个步骤在下图的1处表示。

（2）接下来的时刻，我们告诉模型，第一个词是Cats（把Cats的向量作为输入），让模型告诉我们Cats后面应该接一个什么词，也就是此时y<2>=p(average|Cats)。这个步骤在下图的2处表示

（3）接下来的时刻，y<3> = p(?|“Cats average”)

（4）接下来每个步骤的RNN，都会考虑前面出现过的词

为了训练RNN，我们要定义Cost Function，即下图的3处的公式。有hat的符号，表示预测值。

在这里插入图片描述

3. 一些细节

RNN模型训练时，需要知道y<2>=p(average|Cats)，就是条件概率（Cats出现时，后面出现average的概率），那这个条件概率怎么计算呢？

可以在语料中，直接统计而得到，这也是我们需要大量语料做模型训练的原因

除了RNN，还有其他方法构建语言模型吗？

wikipedia上给出了一种直接用统计方法构建语言模型的方法

在这里插入图片描述

这是基于NGRAM的语言模型（概率）计算方式。要注意句子开头会被看做一个字符，句子结束也会被看做一个字符。通过对语料中的单词进行统计，就能算出各个单词出现的条件概率。条件概率乘在一起，就能算出一个序列（一句话）的概率。

4. 总结

A statistical language model is a probability distribution over sequences of words. Given such a sequence, say of length m, it assigns a probability p(w1,w2,…,wm) to the whole sequence.

参考

[1]. Andrew Ng. Sequence Model class
[2]. https://en.wikipedia.org/wiki/Language_model
[3]. 如何用python构建一个语言模型, https://nlpforhackers.io/language-models/

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。