绪论
问题
NLP:让计算机实现自动或人机互助的语言处理功能,实现海量语言信息的自动处理、知识挖掘和有效利用
基本概念
- 语言 Language
由语音、词汇、语法构成的一定系统
- 自然语言
区别于人为编造的语言,例如程序语言
- 语言学 Linguistics
语音和文字是语言的两个基本属性
三个不同语系
- 屈折语
用词的形态变化表示语法关系
- 黏着语
词内有专门表示语法意义的附加成分
- 孤立语/分析语
形态变化少,语法关系靠次序和虚词表示
- 语音学 Phonetics
研究人类发音特点,语音发音特点
- 一般语音学
对语音发音、声学、知觉的一般研究
- 实验语音学
对具体语言语音的研究
是语言学研究的一部分(基础)
使用复数的语言学科(Linguistics Sciences)描述语言学和语音学的总和
- 自然语言理解 NLU
判断计算机系统的智能:act、react、interact
图灵测试
- 自然语言处理 NLP
NLP要研制表示语言能力(Linguistic Competence)和语言应用(Linguistic Performance)
- 计算机语言学 Computational Linguitics
语言学的分支,用计算技术和概念阐述语言学和语音学问题
已开发领域包括自然语言处理等等
- 中文信息处理 Chinese Information Processing
计算语言学、NLP、NLU现在常默认为同一概念
NLP的产生与发展
源自机器翻译(MT,Machine Translation)
曲折发展
研究内容
NLP主体
- 机器翻译
- 信息检索
- 自动文摘
- 问答系统
- 信息过滤
- 信息抽取
- 文档分类
- 情感分类
- 文字编辑和自动校对
- 语言教学
其他内容
- 语音识别
- 文字识别
- 文语转换/语音合成
- 说话人识别/认同/验证情感分类
基本问题和主要困难
基本问题
形态学(Morphology)问题
又称词法,研究词(word)由有意义的基本单元——词素(morphemes)的构成
- 屈折变化
- 构词法
语法学(Syntax)问题
研究句子结构成分之间的相互关系和组成句子序列的规则
语义学(Semantics)问题
研究如何从语句中词的意义,以及词在语句中的句法结构推导语句的意义
语用学(Pragmatics)问题
研究在不同上下文中语句的应用,以及上下文对语句理解产生的影响
语音学(Phonetics)问题
研究语音特性、语音描述、分类及转写方法
主要困难
歧义(ambiguity)现象
- 词法歧义
- 词性歧义
- 结构歧义
歧义结构分析结果的数量随介词短语数目的增加呈指数上升
C
n
=
(
2
n
n
)
1
n
+
1
C_n= \left( \begin{array}{cc} 2n\\ n \end{array} \right) \frac{1}{n+1}
Cn=(2nn)n+11
n
n
n为句子中介词短语个数
- 语义歧义
- 语音歧义
大量未知语言现象
- 新词、人名、地名、术语
- 新含义
- 新用法、新句型
归纳NLU面临的挑战
- 普遍存在的不确定性
- 未知语言现象的不可预测性
- 始终面临的数据不充分性
- 语言知识表达的复杂性
- 机器翻译中映射单元的不对等性
基本研究方法
理性主义与经验主义方法的哲学分野之一:对语言知识来源的不同认识
- 理性主义
人的很大一部分语言知识与生俱来,由遗传决定
诺姆·乔姆斯基(Noam Chomsky)的内在语言官能(innate language faculty)理论被广泛接受
- 经验主义
人的语言知识通过感官输入,经过简单联想(association)与通用化(generalization)的操作得到
大量的语言数据中获得语言知识结构
理性主义与经验主义方法的哲学分野之二:研究对象的差异
- 理性主义
研究人的语言知识结构(语言能力,language competence)
- 经验主义
研究实际的语言数据(语言行为,language performance)
理性主义与经验主义方法的哲学分野之三:运用不同理论
- 理性主义
基于Chomsky的语言原则,通过语言所必须遵守的一系列原则来描述语言
- 经验主义
基于香农(Shannon)信息论
理性主义与经验主义方法的哲学分野之四:采用不同处理方法
- 理性主义
通过特殊的语句或语言现象的研究得到对人的语言能力的认识
- 经验主义
偏重对大规模语言数据中实际使用的语句进行统计
理性主义的问题求解方法
基于规则的分析方法,建立符号处理系统
知
识
库
+
推
理
系
统
→
N
L
P
系
统
知识库+推理系统\rightarrow NLP~系统
知识库+推理系统→NLP 系统
理论基础:Chomsky的文法理论
经验主义的问题求解方法
基于大规模真实语料的计算方法
语
料
库
+
统
计
模
型
→
N
L
P
系
统
语料库+统计模型\rightarrow NLP~系统
语料库+统计模型→NLP 系统
理论基础:统计学、信息论、机器学习
理性主义和经验主义的合谋
符号智能+计算智能,建立融合方法
研究现状
部分问题得到解决,可以提供辅助帮助;基础问题没有解决,技术不能应用于实践;社会需求日益迫切