词性标注
词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术----来自百度百科。
词性标注的作用
1、消除歧义:一些词的不同用法代表不同的意思,比如love
“I love the way she sings that song”
“Where there is great love, there are always miracles.”
2、强化基于单词的特征: 一个机器学习模型可以从一个词的很多方面提取信息,但如果一个词已经标注了词性,那么它作为特征就能提供更精准的信息。 例如:
句子 -‘Love thy neighbor as thyself. We all love to talk about ourselves.’
词性标注统计词频:
{‘love/VB’: 1,
‘thy/JJ’: 1,
‘neighbor/NN’: 1,
‘as/IN’: 1,
‘thyself/NN’: 1,
‘we/PRP’: 1,
‘all/DT’: 1,
‘love/VBP’: 1,
‘to/TO’: 1,
‘talk/VB’: 1,
‘about/IN’: 1,
‘ourselves/PRP’: 1}
如果不带词性标注,两个“love”就被认为是同义词,词频为2。
{‘love’: 2,
‘thy’