NLP入门-综述阅读-【自然语言处理发展及应用综述】
青岛理工大学-赵京胜等人-2019年7月
摘要:自然语言处理涉及许多领域,包括词汇、句法、语义和语用分析,文本分类、情感分析、自动摘要、机器翻译和社会计算等。随着通信和计算机相关技术的发展,自然语言处理的应用需求也越来越大。分析自然语言处理的相关背景、常用方法和应用领域,并对 NLP 的发展进行了展望。
关键词:自然语言处理;信息抽取;自动文摘
1 前言
自然语言处理主要分两个流程:自然语言理解NLU和自然语言生成NLG
自然语言理解NLU主要是理解文本的含义,具体到每个单词和结构都需要被理解
自然语言生成NLG通过评估情况和可用的交际资源来计划如何实现目标,并将计划形成文本
2 自然语言处理的发展
1956年以前:萌芽期
1957-1970年:快速发展期
1971-1993年:低谷发展期
1994年至今:复苏融合期
隐马尔可夫模型?(好像经常听到,只能学了!冲!)
3 自然语言处理的研究方法和内容
3.1 自然语言处理的研究方法
中文信息处理主要是对字、词、段落或篇章进行处理。主要方法分别是基于规则和基于统计的方法,前者是人工根据语言相关的规则对文本进行处理;后者则是通过大规模的数据库分析数据,从而实现对自然语言的处理。
自然语言处理受数据影响较大,而数据的增长是大多数 NLP 应用(如机器翻译)性能提高的原因,所以拥有强大的数据支持才可以更好的对文本进行进一步的理解和分析,这使得如今很多NLP 应用程序采用数据流分析方法。
自然语言处理的大致流程:
1)获取语料
2)对语料进行预处理,其中包括语料清理、分词、词性标注和去停用词等步骤
3)特征化,即向量化,主要把分词后的字和词表示成计算机可计算的类型(向量),