自然语言的特点:词汇量大(关键词丰富)、非结构化、歧义性、容错性、易变性、简略性
一、简单知识介绍
1.自然语言处理的层次
1.语音,图像、文本
2.中文分词(词与词之间的边界)、词性标注(形容词、名词、动词等的标注)、命名体识别(专有名词,一般包括三大类(实体类、时间类和数字类)和七小类(人名、地名、机构名、时间、日期、货币和百分比))
3.信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。 这些信息通常包括实体(entity)、关系(relation)、事件(event)。信息抽取主要包括三个子任务:关系抽取(RE)、命名实体识别(NER)、事件抽取(EE)。
4.文本分类与文本聚类:两者区别为,文本分类为事先确定好的类别进行分类,文本聚类为无监督学习,没有确定的类别数量。
5.句法分析:句法分析分为两类,一类是分析句子的主谓宾 定状补的句法结构。另一类是分析词汇间的依存关系,如并列 从属 比较 递进等
6.语义分析与篇章分析
…………等其他综合性任务
2.机器学习
机器学习步骤:
1.数据预处理
2.特征提取(特征工程)
3.模型建立
4.进行训练
算法分类:监督学习,无监督学习,半监督学习
二、词典分词
1.词典
分词,词性标注,和命名实体识别,有什么区别? - 知乎 (zhihu.com)