【自然语言理解笔记】 绪论

本文为宗成庆老师课程学习笔记


研究两个基本问题:

 1 是什么,为什么?这是科学相关问题

  2 做什么,怎么做?这是技术相关问题


当前处于一个信息爆炸时代,以信息检索为例,中文网页检索的最高准确率不到40%,且随着大数据发展,可能更低。

全世界目前有4000多种语言,正在使用的有1900多种,45个国家官网语言是英语,英语作为第二语言的有3.8亿,正在学习的有7.8亿,我们汉语的语言学习比例也在逐渐上升。


自然语言:人类社会发展过程的自然产生的语言,如汉语、英语等。语言是思维的载体,是人类交流思想,表达情感等活动的工具。


自然语言处理产生动机:

一方面,不同语言之间需要交流,那么利用机器翻译作为翻译工具具有很大的发展前景。

一方面,在信息安全方面,也需要处理跨语言问题。

如何让计算机实现自动的或人机互动的语言处理功能,如何让计算机实现海量语言信息的自动处理、知识挖掘和有效利用,具有重要意义。


基本概念:

1 语言:人类所有特有的用来表达意思、交流思想的工具,是一种特殊的社会现象。

   自然语言:是人类社会发展过程中产生的语言,而非机器中人为编造的语言。


2 语言学:对语言的科学研究,研究语言的本质、结构和发展规律的科学语言的两个基本属性:文字和声音

   语音学:专门研究人类发声的特点,如何描述语音转成文字的方法等。包括发生语音学,声学语音学,听觉语音学。

   语音学与语言学相互渗透,在国外不具体区分,统称为“Linguistic Science 一种复数的语言科学”


3 自然语言理解:微观上,语言理解是指从自然语言到机器内部之间的一种映射。宏观上,语言理解指机器能执行人类所能执行的一种功能,如问答系统等。

   "理解"的标准:判断计算机系统的智能来判断理解好坏,如何计算机系统的表现如何,反应如何,计算系统之间的相互作用如何。


4 自然语言处理:研究人与人,或人与计算机之间的语言问题的一门学科。

   计算语言学:早起定义,用电子数字计算机进行的语言分析。现代定义:是语言学的一个研究分支,用计算机技术和概念来阐述语言学和语音学的为问题。包括自然语言处理,语音合成,语音识别等。


5 三种不同的语系:

  孤立语:形态变化比较少,语法关系靠次序和虚词表示。如汉语,英语。

  结合语?

  黏着语:词内有专门表示语法意义的附件成分,词根或词干与附件成分的结合不紧密。


6. 中文信息处理:针对汉语进行处理的技术,


自然语言处理NLP的产生于发展:

主要:计算机语言->机器翻译->俄语英语之间翻译->出现自然语言人机接口系统和对话系统

阶段:六十年代中期以前,萌芽期

           六十年代后期到七十年代中期,步履维艰

           七十年代后期,复苏

           八十年代后期, 蓬勃发展


自然语言研究内容,从应用角度:

机器翻译。如网络翻译、情报翻译,旅游人员口语翻译,软件有谷歌翻译。

信息检索。网页中的数据的精确检索,提高查找信息的准确率。

自动文摘。只检索一堆情报,网络中文章中的获取大概内容,以及观念挖掘。

问答系统。基于问题,计算机返回答案。

信息过滤。让计算机自动辨识与过滤网络大量无用的信息,如反政府、病毒、黄色信息。

信息抽取。从大量海量文章中,抽取出用户感兴趣问题,不仅仅回答答案,而且包括多个实体之间的关系,如情报部门,公安部门,各个术语之间的关联关系挖掘。

文档分类。如在大量文档中,从内容、主题、情感上自动划分出体育文章,事件同情文章,产品客户态度喜好分类。

文字编辑与自动校对。如word中已有该功能。

语言教学和文字识别。

语音识别。将声音准确转换为文字。

语音合成。与语音识别相反,给定文字,如何变成声音。如在盲人阅读领域,自动识别文字并有感情朗读。

说话人识别。很短时间内快速判断讲话人是谁。是布什还是克林顿还是拉登。

由上,语音识别、图像识别,可能均与自然语言处理协同使用,所以,可理解为自然语言相关的问题。



自然语言发展中的基本问题:

形态学问题。语言由词构成。词由词素构成,如怎么分词,如汉语词边界怎么判断,老虎<-老+虎 。研究词的构词规律,识别方法,词义变换

语法学问题。研究句子为什么这么写,应该遵循哪些语法规律,如何建立快速而有效的结构分析方法。苹果,我吃了 = 我吃了苹果,计算机遇到这样的句子,应该采用什么方法,认为这两个句子表达内容一样。

语义学问题。研究怎么从词的意义,推测出句子的含义,乃至段落、文章的含义。你真牛,表示厉害,而不是是牛。苹果,我吃了,代表我吃了的是苹果。火烧圆明园与驴肉火烧。

语用学问题。研究一句话,在特定的上下文语言环境中的不同含义。看看鱼怎么样了,可能是养的金鱼,可能是煮的鲤鱼好了没问题。

语音学问题。语音发生的规律,声音描写,声音与文字的对应关系。


NLP主要问题:

歧义问题:如由歧义字符引起,I'll ssee Prof. Zhang homt. 两个点号的标识不一样,一个是缩写,一个是句尾,导致断句问题

                      自动化/研究/所取得的成就。自动化/研究所/取得的成就。

                      门/把/手/弄坏了。门把手/弄坏了。

                       打扫/平板/罚款10元。打/扫平板/罚款10元。

                       喜欢乡下的孩子。关于鲁迅的文章。今天中午吃馒头/食堂/大碗/闭门羹。等等。

大量未知语言现象:如新词汇、新术语等。


NLP基本研究方法:

理性主义方法与经验主义方法,其区别是

1 理性主义方法人为人的大部分语言知识是与生俱来的,如乔姆斯基理论。而经验主义方法主要认可用信息论、香浓理论,统计方法。

2 经验主义方法直接研究实际的语言数据本身。

3 理想通过特殊语句或语言现象的研究来得到人的语言能力的认识,来构造一些规则;而经验方法偏向于从大规模语言数据中作普通语句的统计。

4 理性主义的问题求解犯法:基于规则的分析方法,建立符号处理系统。经验主义问题求解方法:基于大规模真是语料(语言数据)的计算方法,加统计模型处理。

例子:

There  is  a book on the desk. 进行汉语翻译

基于理性主义规则的方法:1 对英语句子进行词法分析,那些事主谓宾定状补。2 对句子进行句法结构分析。3 利用转换规则,将英语句子结构转换成汉语句子结构。

基于经验主义方法:基于语料库,利用贝叶斯公式,建立语言模型和翻译模型,求解最大概率翻译结果问题


因此,基于理性方法与经验方法,相互结合支撑,建立高性能自然语言处理模型。


任何一个自然语言问题都没有彻底解决,可以站在巨人的肩膀上继续搞研究。


现有的研究方法有:



国外内研究机构:




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值