textblob的情感分析原理

最新推荐文章于 2024-02-18 14:38:47 发布

区块链专家

最新推荐文章于 2024-02-18 14:38:47 发布

阅读量1k

点赞数

文章标签：人工智能数据分析

原文链接：https://www.usb-mp3.com/

版权

　　Python的TextBlob包是执行许多自然语言处理(NLP)任务的便捷方法。例如：

　　这告诉我们，英语短语“not a very great calculation”的极性约为-0.3.表示它略为负，主观性约为0.6.表示它是相当主观的。

　　但是这些数字从何而来?

　　让我们通过查找源代码来查找。(sloria/TextBlob)

　　深入研究之后，可以发现_text.py中定义了主要的默认情感计算，该功劳归功于模式库。

　　它引用的词典在en-sentiment.xml中，这是一个XML文档，其中包括“ great”一词的以下四个条目。

　　除了上面的评论中提到的极性，主观性和强度之外(polarity, subjectivity, and intensity)，还有“confidence”，以“great”为例，它是所有相同的语言部分(JJ表示形容词)，：

　　也就是说，textblob内部通过一些字典或者说模板的方式对great进行了如上的定义，应该和nltk类似通过人工等方式来计算得到的一些评价结果;

　　当计算单个词的时候，textblob进行了简单平均：

　　可以看到，计算结果就是简单平均。

　　如果加入否定词，比如not：

　　则极性默认是乘以-0.5

　　TextBlob还可以处理修饰词!这是词典中“very”的摘要记录：

　　则

　　这里，当very作为修饰词的时候，它的polarity和subjectivity是忽略的，而是直接使用intensity乘以great的polarity和subjectivity，因为极性最大为1.所以这里舍入了。

　　再看一个例子：

　　这里的计算过程是这样的：

　　TextBlob将忽略其情感语录短语中的一个字母的单词，这意味着类似的事情将以相同的方式起作用：

　　而且TextBlob会忽略不知道的单词：

　　TextBlob一直在寻找可以为其指定极性和主观性的单词和短语，并将它们平均在一起，这就是对长文本进行处理的时候的原理，就是简单平均，疯狂的平均。

区块链专家

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
textblob的情感分析原理

这里，当very作为修饰词的时候，它的polarity和subjectivity是忽略的，而是直接使用intensity乘以great的polarity和subjectivity，因为极性最大为1.所以这里舍入了。也就是说，textblob内部通过一些字典或者说模板的方式对great进行了如上的定义，应该和nltk类似通过人工等方式来计算得到的一些评价结果;TextBlob一直在寻找可以为其指定极性和主观性的单词和短语，并将它们平均在一起，这就是对长文本进行处理的时候的原理，就是简单平均，疯狂的平均。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。