@[词性标注与分词]
1.数据标注
在词性标记集已确定,并且词典中每个词都有确定词性的基础上,对一个输入词串转换成相应词性标记串的过程叫做词性标注。
例如“我爱自然语言处理技术” :
“我”是 代词 r ;
“爱”是 动词 v。
1.1难点
需要注意兼用现象,兼用现象常常出现并且容易出现歧义,大家对某些词性的汉语尚未达成统一的标准,因此,还没有统一的标准划分词性也加大了词性标注的困难。
1.2方法
1.基于规则
早期的人工标注
2.基于统计模型
在有标记数据的大型语料库下进行训练
HMM 隐马尔科夫模型
CRF 条件随机域
3.基于统计和规则结合
前两种结合:对统计模型标准结果筛选,只对可疑的标注结果采用规则方法进行歧义消解
4.基于DL
当作序列标注任务来做
LSTM+CRF
BiLSTM+CRF
2.分词
通过空格 或者 其他 边界标记 将汉字序列 按照一定的规范 切分成单词的词(可以单个、两个、三个…)成为分词。
参考《PFR人民日报标注语料库》的词性编码表:
参考文献
参考材料网址1:https://blog.csdn.net/diyiday/article/details/87940222
参考材料网址2:https://blog.csdn.net/qq_43132511/article/details/98443622?tdsourcetag=s_pcqq_aiomsg