自然语言处理发展及应用综述 笔记
一、小结
这一篇论文主要介绍了自然语言处理的整体研究方法,包括五步,即获取语料、对语料预处理、进行特征化、进行模型训练和最后的建模效果评估。绝大多数研究方法都遵循这五步。
然后是自然语言处理基础研究的区分,有词法分析、句法分析、语用分析和语义分析。其中语义分析是NLP研究的重点方向。
最后是对NLP研究领域的介绍,包括信息检索(IE)、文本分类、情感分析、机器翻译、社会计算、信息抽取(IR)和自动文摘。本篇论文详细介绍了信息抽取和自动文摘的内容。
目前在各种细分的技术领域中,主要是依靠机器学习和深度学习来探索更优的方案。
原论文为自然语言处理发展及应用综述,赵京胜著。
二、自然语言处理的研究方法
1. 自然语言处理的研究方法
- 基于规则和基于统计的方法
- 自然语言处理受数据影响较大,而数据的增长是大多数 NLP 应用(如机器翻译)性能提高的原因,所以拥有强大的数据支持才可以更好的对文本进行进一步的理解和分析,这使得如今很多NLP应用程序采用数据流分析方法。
2. 自然语言的处理流程
- 第一步获取语料
- 第二步对语料进行预处理
- 第三步特征化,也就是向量化
- 第四步模型训练,包括传统的有监督、半监督和无监督学习模型等(训练模型时可能会出现过拟合和欠拟合的状况)
- 第五步对建模后的效果进行评价,常用的