chap1-绪论

绪论

问题

NLP:让计算机实现自动或人机互助的语言处理功能,实现海量语言信息的自动处理、知识挖掘和有效利用

基本概念

  • 语言 Language

由语音、词汇、语法构成的一定系统

  • 自然语言

区别于人为编造的语言,例如程序语言

  • 语言学 Linguistics

语音和文字是语言的两个基本属性

三个不同语系

  • 屈折语

用词的形态变化表示语法关系

  • 黏着语

词内有专门表示语法意义的附加成分

  • 孤立语/分析语

形态变化少,语法关系靠次序和虚词表示

  • 语音学 Phonetics

研究人类发音特点,语音发音特点

  • 一般语音学

对语音发音、声学、知觉的一般研究

  • 实验语音学

对具体语言语音的研究

是语言学研究的一部分(基础)

使用复数的语言学科(Linguistics Sciences)描述语言学和语音学的总和

  • 自然语言理解 NLU

判断计算机系统的智能:act、react、interact

图灵测试

  • 自然语言处理 NLP

NLP要研制表示语言能力(Linguistic Competence)和语言应用(Linguistic Performance)

  • 计算机语言学 Computational Linguitics

语言学的分支,用计算技术和概念阐述语言学和语音学问题

已开发领域包括自然语言处理等等

  • 中文信息处理 Chinese Information Processing

计算语言学、NLP、NLU现在常默认为同一概念

NLP的产生与发展

源自机器翻译(MT,Machine Translation)

曲折发展

研究内容

NLP主体

  • 机器翻译
  • 信息检索
  • 自动文摘
  • 问答系统
  • 信息过滤
  • 信息抽取
  • 文档分类
  • 情感分类
  • 文字编辑和自动校对
  • 语言教学

其他内容

  • 语音识别
  • 文字识别
  • 文语转换/语音合成
  • 说话人识别/认同/验证情感分类

基本问题和主要困难

基本问题

形态学(Morphology)问题

又称词法,研究词(word)由有意义的基本单元——词素(morphemes)的构成

  • 屈折变化
  • 构词法
语法学(Syntax)问题

研究句子结构成分之间的相互关系和组成句子序列的规则

语义学(Semantics)问题

研究如何从语句中词的意义,以及词在语句中的句法结构推导语句的意义

语用学(Pragmatics)问题

研究在不同上下文中语句的应用,以及上下文对语句理解产生的影响

语音学(Phonetics)问题

研究语音特性、语音描述、分类及转写方法

主要困难

歧义(ambiguity)现象
  • 词法歧义
  • 词性歧义
  • 结构歧义

歧义结构分析结果的数量随介词短语数目的增加呈指数上升
C n = ( 2 n n ) 1 n + 1 C_n= \left( \begin{array}{cc} 2n\\ n \end{array} \right) \frac{1}{n+1} Cn=(2nn)n+11
n n n为句子中介词短语个数

  • 语义歧义
  • 语音歧义
大量未知语言现象
  • 新词、人名、地名、术语
  • 新含义
  • 新用法、新句型

归纳NLU面临的挑战

  • 普遍存在的不确定性
  • 未知语言现象的不可预测性
  • 始终面临的数据不充分性
  • 语言知识表达的复杂性
  • 机器翻译中映射单元的不对等性

基本研究方法

理性主义与经验主义方法的哲学分野之一:对语言知识来源的不同认识

  • 理性主义

人的很大一部分语言知识与生俱来,由遗传决定

诺姆·乔姆斯基(Noam Chomsky)的内在语言官能(innate language faculty)理论被广泛接受

  • 经验主义

人的语言知识通过感官输入,经过简单联想(association)与通用化(generalization)的操作得到

大量的语言数据中获得语言知识结构

理性主义与经验主义方法的哲学分野之二:研究对象的差异

  • 理性主义

研究人的语言知识结构(语言能力,language competence)

  • 经验主义

研究实际的语言数据(语言行为,language performance)

理性主义与经验主义方法的哲学分野之三:运用不同理论

  • 理性主义

基于Chomsky的语言原则,通过语言所必须遵守的一系列原则来描述语言

  • 经验主义

基于香农(Shannon)信息论

理性主义与经验主义方法的哲学分野之四:采用不同处理方法

  • 理性主义

通过特殊的语句或语言现象的研究得到对人的语言能力的认识

  • 经验主义

偏重对大规模语言数据中实际使用的语句进行统计

理性主义的问题求解方法

基于规则的分析方法,建立符号处理系统
知 识 库 + 推 理 系 统 → N L P   系 统 知识库+推理系统\rightarrow NLP~系统 +NLP 
理论基础:Chomsky的文法理论

经验主义的问题求解方法

基于大规模真实语料的计算方法
语 料 库 + 统 计 模 型 → N L P   系 统 语料库+统计模型\rightarrow NLP~系统 +NLP 
理论基础:统计学、信息论、机器学习

理性主义和经验主义的合谋

符号智能+计算智能,建立融合方法

研究现状

部分问题得到解决,可以提供辅助帮助;基础问题没有解决,技术不能应用于实践;社会需求日益迫切

国内外研究机构

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值