文本情感分类（一）

最新推荐文章于 2024-04-25 13:32:03 发布

老三是只猫

最新推荐文章于 2024-04-25 13:32:03 发布

阅读量4.4k

点赞数 1

分类专栏： python NLP 文章标签：文本分类

本文链接：https://blog.csdn.net/zhonglongshen/article/details/78838915

版权

python 同时被 2 个专栏收录

142 篇文章 7 订阅

订阅专栏

NLP

25 篇文章 0 订阅

订阅专栏

基于情感词典的文本情感分类
古典文本分类的流程：
这里写图片描述

根据上图，我们可以通过以下几个步骤实现基于情感词典的文本情感分类：
1：预处理
2：分词
3：训练情感词典
4：判断。
以下主要分几个不追将上述上面的内容
一、文本的预处理
这部分的主要内容来自爬虫获取。
二、分词
选用结巴分词即可
三、载入情感词典
一般来说，词典是文本挖掘的最核心的部分，对于情感分类也不例外。情感词典主要分为四个部分：积极情感词典，消极情感词典，否定词典，以及程度副词词典。
这里写图片描述

四、文本情感分类
基于情感词典的文本分类比较机械化。简单起见，我们将每个积极情感词语赋予权重1，将每个消极情感词语赋予权重-1，并且假设情感满足线性叠加原理；然后我们将句子进行分词。如果句子分词后的词语向量包含相应的词语，就加上向前的权重，其中否定词和程度副词会有特殊的判别规则，否定词会导致权值反号，而程度副词则让权值加倍，最后，根据总权值的正负性来判断句子的情感，基本的算法如图：
这里写图片描述
这里用到了几个假设：假设一，我们假设了所有的积极词语，消极词语的权重都是相等的，这只是简单的判断情况下成立，更精准的分类显然不成立，假设二、我们假设了权值是线性叠加的，这在多数情况下都会成立，但是也是有非线性的存在，以增加准确性，假设三、对否定词和程度副词的处理，都仅仅是作了简单的取反和加倍，而事实上，各个否定词和程度副词的权值也是不一样的，比如非常喜欢和挺喜欢，但我们对此并没有区分。

语言系统是相当复杂的
归根到底，这是因为我们大脑中的语言系统是相当复杂的，1、一个句子并不适合词语的简单线性组合，它是有相当复杂的非线性在里面。2、我们在描述一个句子时，都是讲句子作为一个整体而不是词语的集合看待的，词语的不同组合、不同顺序、不同数据都能够带来不同的含义和情感，这导致了文本情感分类的困难。

优化思路：
1：非线性的引入
2：情感词典的扩充

老三是只猫

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
文本情感分类（一）

基于情感词典的文本情感分类古典文本分类的流程：根据上图，我们可以通过以下几个步骤实现基于情感词典的文本情感分类： 1：预处理 2：分词 3：训练情感词典 4：判断。以下主要分几个不追将上述上面的内容一、文本的预处理这部分的主要内容来自爬虫获取。二、分词选用结巴分词即可三、载入情感词典一般来说，词典是文本挖掘的最核心的部分，对于情感分类也不例外。情感词典主要
复制链接

扫一扫