1.2 自然语言处理的基础知识
自然语言处理是人类语言的机器处理,旨在教授机器如何处理和理解人类的语言,从而在人与机器之间建立一个简单的沟通渠道。
编程语言:“机器能够轻松理解和处理的是什么?”顺应机器
自然语言处理:使机器能够与人类保持一致,并学习人类的交流方式。
数值数据:机器学习模型,深度学习模型
自然语言处理:文本数据---》数值数据,从而使得机器学习模型和深度学习模型能够适用于文本数据
1.3 自然语言处理的三种能力:
1.语音识别
2.自然语言理解
3.自然语言生成
文本数据:语料库(corpora)一个语料(corpus)
1.4 自然语言处理中的应用
- 自动文摘
- 翻译
- 情感分析
- 关系提取:从语料库中提取语义关系
- 聊天机器人:有助于帮助患有抑郁症和焦虑症的人。
- 社交媒体分析
- 个人语音助理
- 语法检查
文本预处理
机器不需要语料库中的无关部分
执行根据需要来执行任务的不同预处理技术
NLTK:一个简单的自然语言处理的库
文本预处理技术
- 小写、大写转换
- 去噪
- 文本规范化
- 词干提取
- 词形还原
- 标记化
- 删除停止词