绪论
一、提出问题
- 如何让计算机自动或人机互助的完成语言处理功能?
- 如何让计算机对海量信息进行自动处理、知识挖掘,进行有效利用?
二、基本概念
1、语言学与语音学
语言的两个基本属性:语音、文字
2、语言学:研究语言的学科,包含语言的本质、结构、发展规律
3、语音学:研究发音特点
4、计算机语言学:计算技术和概念、语言学和语音学问题
5、自然语言处理 or 自然语言理解
关于“理解”的标准:计算机智能——表现、反映、人机交互——图灵
测试
三、自然语言处理研究的内容和面对的困难
(一)研究内容
- 机器翻译
- 自动文摘
- 信息检索
- 文档分类
- 问答系统
- 信息过滤
- 信息抽取
- 文字编辑和自动校对
- 光读字符识别OCR
- 语音识别
- 文本挖掘
- 语音识别
- 语音合成
- 舆情分析
等等…
(二)自然语言涉及的几个层次
1、形态学
2、语法学:语法规律、句子结构
3、语义学(根本问题):词的含义——句的含义——段落篇章的含义
4、语用学:特定环境的文字用法
(三)面临的困难
1、歧义:语义歧义、结构歧义
eg:Put the block[ in the box on the table].
Put [the block in the box] on the table.
2、未知的语言
四、自然语言处理的基本方法及其发展
(一)基本方法
理性主义 | 经验主义 | |
---|---|---|
知识来源 | 与生俱来 | 大量的语言数据 |
研究对象 | 语言知识结构、符号、规则 | 语言数据 |
理论 | Chomsky的语言原则 | Shannon的信息论 |
应用 | 形式语言 | 统计模型 |
(二)发展和现状
1、萌芽期(1946年)——发展期(1966年)——繁荣期(20世纪80年代末)
2、目前已经取得了一定的研究成果,但是根本问题还未解决。
3、新的研究方向不断涌现,具有极大发展前景。