从excel读取数据，利用情感词典进行文本分类

最新推荐文章于 2024-08-15 15:38:39 发布

不痒痒

最新推荐文章于 2024-08-15 15:38:39 发布

阅读量2.7k

点赞数 1

分类专栏：文本情感分类文章标签：情感词典_文本分类

本文链接：https://blog.csdn.net/weixin_43657971/article/details/103106477

版权

该博客介绍了如何从Excel文件读取数据，并利用BosonNLP的情感词典对美妆博主微博评论进行文本分类。实验结果显示，在预测3000条评论后，模型准确率为53%，但对中性评论的识别不够精准。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#从excel读取数据，利用情感词典进行文本分类
数据集：从微博爬取的美妆博主的评论
情感词典：BosonNLP_情感词典
准确率：预测了3000条数据，准确率约53%。对中性评论不敏感。


import openpyxl

import codecs
from collections import defaultdict
import jieba
import xlrd

#分词，去除停用词
def seg_word (sentence):
    #分词
    seg_list = jieba.cut(sentence)
    seg_result = []
    for w in seg_list:
        seg_result.append(w)
    #读取停用词
    stopwords = set()
    fr = codecs.open('D:\个人资料\数据集\情感词典_微博专用\chineseStopWords.txt','r','utf-8')
    for word in fr:
        stopwords.add(word.strip())
    fr.close()
    #去除停用词
    return list (filter(lambda x: x not in stopwords, seg_result))

#对分词结果分类：情感词、否定词、程度副词
#key未索引，value为权值
def classify_words(word_list):
    #读取情感词典
    sen_file  = open('D:\个人资料\数据集\BosonNLP_情感词典\BosonNLP_sentiment_score\BosonNLP_sentiment_score.txt','r+',encoding='utf-8')
    #获取字典内容
    #去除‘\n’
    sen_list = sen_file.read().splitlines()
    #创建情感词典
    sen_dict = defaultdict()
    #读取字典文件每一行内容，将其转换为字典对象，key为情感词，value为对应的分值
    for s in sen_list:
        <

最低0.47元/天解锁文章