自然语言处理系列五十九》自然语言模型》N-Gram统计自然语言模型

陈敬雷-充电了么-CEO兼CTO

已于 2024-09-06 20:51:57 修改

阅读量917

点赞数 12

分类专栏：人工智能大数据 python 文章标签：自然语言处理人工智能 AIGC ai 大数据 python java

于 2024-09-05 21:32:54 首次发布

本文链接：https://blog.csdn.net/weixin_52610848/article/details/141941121

版权

人工智能同时被 3 个专栏收录

66 篇文章 3 订阅

订阅专栏

大数据

54 篇文章 1 订阅

订阅专栏

python

29 篇文章 0 订阅

订阅专栏

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】

文章目录

自然语言处理系列五十九
- 自然语言模型》N-Gram统计自然语言模型
- - LSTM神经网络语言模型，分布式深度学习实战
总结

自然语言处理系列五十九

自然语言模型》N-Gram统计自然语言模型

简单地说，N-Gram统计语言模型就是用来计算一个句子的概率的模型，也就是判断一句话是否是人话的概率？那么如何计算一个句子的概率呢？现在很多的应用中，需要计算一个句子的概率，一个句子是否合理，就看看它的可能性大小，这里可能性的大小就用概率来衡量。比如下面例子：
语音识别中：
比如I saw a van 和eyes awe of an听上去差不多，但是P(I saw a van) >> P(eyes awe of an)
上面的几个例子中都需要计算一个句子的概率，以作为判断其是否合理的依据。下面将上述的内容形式化描述。
我们需要计算一个句子或序列W的概率：
P(W) = P(w 1 ,w 2 ,w 3 ,w 4 ,w 5 …w n )
其中我们也需要计算一个相关的任务，比如P(w 5 |w 1 ,w 2 ,w 3 ,w 4 )，表示w 1 w 2 w 3 w 4 后面是w 5的概率，即下一个词的概率。
像这样计算P(W)或者P(w n |w 1 ,w 2 …w n-‐1 )的模型叫做语言模型( language model简称LM)。
如果一个词的出现与它周围的词是独立的，那么我们就称之为unigram也就是一元语言模型。
如果一个词的出现仅依赖于它前面出现的一个词，那么我们就称之为bigram。
假设一个词的出现仅依赖于它前面出现的两个词，那么我们就称之为trigram。
一般来说，N元模型就是假设当前词的出现概率只与它前面的N-1个词有关。而这些概率参数都是可以通过大规模语料库来计算。在实践中用的最多的就是bigram和trigram了，高于四元的用的非常少，由于训练它须要更庞大的语料，并且数据稀疏严重，时间复杂度高，精度却提高的不多。
N-Gram有一些不足，因为语言存在一个长距离依赖关系，比如考虑下面的句子：
“The computer which I had just put into the machine room on the fifth floor crashed.”
假如我们要预测最后一个词语crashed出现的概率，如果采用二元模型，那么crashed与floor实际关联可能性应该非常小，相反的，这句子的主语computer与crashed的相关性很大，但是N-Gram并没有捕捉到这个信息。解决这个长距离依赖就可以用LSTM长短期记忆神经网络。

LSTM神经网络语言模型，分布式深度学习实战

深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。下一篇文章介绍主流的深度学习框架，更多详细内容和LSTM神经网络语言模型可参见
《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】书籍。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频：

【配套新书教材】
《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】
新书特色：本书从自然语言处理基础开始，逐步深入各种NLP热点前沿技术，使用了Java和Python两门语言精心编排了大量代码实例，契合公司实际工作场景技能，侧重实战。
全书共分为19章，详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型（Language Model）、分布式深度学习实战等内容，同时配套完整实战项目，例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。
本书理论联系实践，深入浅出，知识点全面，通过阅读本书，读者不仅可以理解自然语言处理的知识，还能通过实战项目案例更好地将理论融入实际工作中。
《分布式机器学习实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】
新书特色：深入浅出，逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目。

【配套视频】

推荐系统/智能问答/人脸识别实战视频教程【陈敬雷】
视频特色：把目前互联网热门、前沿的项目实战汇聚一堂，通过真实的项目实战课程，让你快速成为算法总监、架构师、技术负责人！包含了推荐系统、智能问答、人脸识别等前沿的精品课程，下面分别介绍各个实战项目：
1、推荐算法系统实战
听完此课，可以实现一个完整的推荐系统！下面我们就从推荐系统的整体架构以及各个子系统的实现给大家深度解密来自一线大型互联网公司重量级的实战产品项目！
2、智能问答/对话机器人实战
由浅入深的给大家详细讲解对话机器人项目的原理以及代码实现、并在公司服务器上演示如何实际操作和部署的全过程！
3、人脸识别实战
从人脸识别原理、人脸识别应用场景、人脸检测与对齐、人脸识别比对、人脸年龄识别、人脸性别识别几个方向，从理论到源码实战、再到服务器操作给大家深度讲解！

自然语言处理NLP原理与实战视频教程【陈敬雷】
视频特色：《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理，以及源码级别的应用操作实战，直接讲解自然语言处理的核心精髓部分，自然语言处理从业者或者转行自然语言处理者必听视频！

人工智能《分布式机器学习实战》视频教程【陈敬雷】
视频特色：视频核心内容有互联网公司大数据和人工智能、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战（推荐算法系统实战、人脸识别实战、对话机器人实战）。

上一篇：自然语言处理系列五十八》自然语言模型》自然语言模型算法原理
下一篇：自然语言处理系列六十》分布式深度学习实战》主流深度学习开源平台