1 词性标注
1.1常见的词性集
百度词性集(24个)
ICTCLAS汉语词性(39个)
ICTPOS3.0词性(94个)
人民日报词性集(103个)
jieba词性集(64个)
1.2词性标注做法
机械切分,从词典获得词性
模型切分,从模型中获取;(需要额外的分词词性序列标注模型)
1.3一词多性问题
我 的 喜欢:喜欢为vn
我 喜欢 他 :喜欢为v
对于机械分词如何解决一词多性?
可以训练一个词性的HMM模型
(统计三个参数矩阵:初始状态矩阵、状态转移矩阵、输出观测矩阵)
1.4HMM原理
两个假设:
1、马尔科夫假