《统计自然语言处理》第一章知识点整理

第一章 绪论

1.1 自然语言处理

自然语言处理(natural language processing,NLP):从人工智能研究的开始一开始,它就作为这一学科的重要研究内容探索人类理解自然语言这一智能行为的基本方法。利用计算机工具对人类所特有的语言信息(包括口语信息和文字信息)进行加工,并建立各种人-机-人系统。

1.2.1 自然语言处理研究的内容和面临的困境

研究方向:

  1. 机器翻译:实现一种语言到另一种语言的自动翻译。
  2. 自动文摘:将原文档的主要内容和含义自动归纳、提炼出来,形成摘要或缩写。
  3. 信息检索:也称情报检索,就是利用计算机系统从海量文档中找到符合用户需要的相关文档。面向两种或两种以上语言的信息检索叫做跨语言信息检索。
  4. 文档分类:也称文本分类或信息分类,其目的就是利用计算机系统对大量的文档按照一定的分类标准实现自动分类。
  5. 问答系统:通过计算机系统对用户提出的问题的理解,利用自动推断等手段,在有关知识资源自动求解答案并做出相应的回答。
  6. 信息过滤:通过计算机系统自动识别和过滤那些满足特定条件的文档信息。
  7. 信息抽取:指从文本中抽取出特定的事件或实时信息,有时候又称事件抽取。信息抽取与信息检索不同,信息抽取直接从自然语言文本中抽取 信息框架,而信息检索则是从海量文档集合中找到与用户需求(一般通过关键词表达)相关的文档列表,而信息抽取则是希望直接从文本中获得用户感兴趣的事实信息。信息抽取与问答系统也有密切的联系。
  8. 文本挖掘:(数据挖掘),是指从文本(多指网络文本)中获取高质量信息的过程。 文本挖掘技术一般涉及文本分类、文本聚类、概念或实体抽取、粒度分类、情感分析、自动文摘和实体关系建模等多种技术。
  9. 舆情分析:舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。
  10. 隐喻计算:“隐喻”就是用乙事物或某些特征来描述甲事物的语言现象。简要地讲,隐喻计算就是研究自然语言语句或篇章中隐喻修辞的理解方法。
  11. 文字编辑和自动校对:对文字拼写、用词,甚至语法、文档格式等进行自动检查、校对和编排。
  12. 作业自动评分:对作文质量和写作水平进行自动评价和打分。
  13. 光读字符识别(OCR):通过计算机系统对印刷体或手写体等文字进行自动识别,将其转换成计算机可以处理的电子文本,简称字符识别或文字识别。
  14. 语言识别:将输入计算机的语音信号识别转换成书面语表示。语音识别也称自动语音识别(ASR)。
  15. 文语转换:将书面文本自动转成对应的语言表征,又称语言合成。
  16. 说话人识别/认证/验证:对一说话人的言语样本做声学分析,以此推断说话人的身份。
    综上所述,涉及人类语言的任何应用技术几乎都隐含着自然语言处理的问题。
1.2.2 自然语言处理涉及的几个层次

自然语言处理研究的问题一般涉及自然语言的形态学、语法学、语义学和语用学等几个层次。

1.3 自然语言处理的基本方法(及其发展)

一般认为,自然语言处理中存在着两种不同的研究方法,一种是理性主义方法,一种是经验主义方法
理性主义方法认为,人的很大一部分语言知识是与生俱来的,由遗传决定的。在具体的自然语言问题研究中,理性主义方法主张建立符号处理系统,由人工整理和编写初始的语言知识表示体系(通常为规则),构造相应的推理程序,系统根据规则和程序,将自然语言理解为符号结构——该结构的意义可以从结构中的符号的意义推导出来。
经验主义方法也是从假定人脑所具有的一些认知能力开始的。

好,今天先停在这。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值