学习目标
• 了解自然语言处理基本知识
• 掌握循环神经网络算法
• 掌握自然语言处理关键技术
• 了解自然语言处理的应用
词性标注
定义
• 词性标注:为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。例如:迈向/v 充满/v 希望/n 的/uj 新/a 世纪/n。
• 词性:是词汇基本的语法属性。
• 目的:是很多NLP任务的预处理步骤,如句法分析、信息抽取,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。
• 方法:基于规则的方法、基于统计的方法、基于深度学习的方法。
• 在中文中,一个词的词性很多时候都不是固定的,一般表现为同音同形的词在不同场景下,其表示的语法截然不同,这就为词性标注带来了很大的困难。但是,大多数词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说单纯选取最高频词性,就能实现80%准确率的中文词性标注程序。
命名实体识别
定义
• 命名体识别(Named Entities Recognition, NER):又称作“专名