textblob的情感分析原理

  Python的TextBlob包是执行许多自然语言处理(NLP)任务的便捷方法。例如:

  这告诉我们,英语短语“not a very great calculation”的极性约为-0.3.表示它略为负,主观性约为0.6.表示它是相当主观的。

  但是这些数字从何而来?

  让我们通过查找源代码来查找。(sloria/TextBlob)

  深入研究之后,可以发现_text.py中定义了主要的默认情感计算,该功劳归功于模式库。

  它引用的词典在en-sentiment.xml中,这是一个XML文档,其中包括“ great”一词的以下四个条目。

  除了上面的评论中提到的极性,主观性和强度之外(polarity, subjectivity, and intensity),还有“confidence”,以“great”为例,它是所有相同的语言部分(JJ表示形容词),:

  也就是说,textblob内部通过一些字典或者说模板的方式对great进行了如上的定义,应该和nltk类似通过人工等方式来计算得到的一些评价结果;

  当计算单个词的时候,textblob进行了简单平均:

  可以看到,计算结果就是简单平均。

  如果加入否定词,比如not:

  则极性默认是乘以-0.5

  TextBlob还可以处理修饰词!这是词典中“very”的摘要记录:

  则

  这里,当very作为修饰词的时候,它的polarity和subjectivity是忽略的,而是直接使用intensity乘以great的polarity和subjectivity,因为极性最大为1.所以这里舍入了。

  再看一个例子:

  这里的计算过程是这样的:

  TextBlob将忽略其情感语录短语中的一个字母的单词,这意味着类似的事情将以相同的方式起作用:

  而且TextBlob会忽略不知道的单词:

  TextBlob一直在寻找可以为其指定极性和主观性的单词和短语,并将它们平均在一起,这就是对长文本进行处理的时候的原理,就是简单平均,疯狂的平均。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值