菜鸟NLP处理学习（一）NLP概论_nlp 菜鸟教程-CSDN博客

本文链接：https://blog.csdn.net/weixin_44432993/article/details/106148963

What is NLP?

全称：Natural Language Processing
中文：自然语言处理
NLP由两部分组成：
P = U + G
NLU:Natural Language Understading
NLG:Natural Language Generation

the flexibility of language 语言的灵活性：
- the multimeaning of language 语言的多义性（Ambiguity 一词多义）
- the multiways of expressing words. 语言表达的多样性
常见的解决方法：
根据上下文（语境context）理解
围绕这一方法，Markov提出了markov模型: wikipedia.
Uni-gram Model：将每个单词看做独立事件
Bi-gram Model：当前单词含义取决于前一个单词含义
Tri-gram Model：当前单词含义取决于前两个单词含义
…
N-gram Model：当前单词含义取决于前N-1个单词含义
他们之间的最大差别在于依赖条件的多少，依赖条件越多，算法越复杂
注：可以参考视频推荐算法（根据你看过的视频内容为你推荐相似的内容）

简单的机器翻译系统：
通过语料库统计词频

缺陷：

优化后的统计型机器翻译系统

以中译英为例：

step1:
对中文进行分词,将分词输入语料库（类似更准确的双语词典）中进行翻译

step2:
对翻译后的词语进行排列组合生成句子,利用LM语言模型对这些句子进行打分，得分越高越符合语法,输出得分最高的句子

step1和step2分开计算的缺陷：

优化：（用黄框表示）