从excel读取数据,利用情感词典进行文本分类

该博客介绍了如何从Excel文件读取数据,并利用BosonNLP的情感词典对美妆博主微博评论进行文本分类。实验结果显示,在预测3000条评论后,模型准确率为53%,但对中性评论的识别不够精准。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#从excel读取数据,利用情感词典进行文本分类
数据集:从微博爬取的美妆博主的评论
情感词典:BosonNLP_情感词典
准确率:预测了3000条数据,准确率约53%。对中性评论不敏感。


import openpyxl

import codecs
from collections import defaultdict
import jieba
import xlrd

#分词,去除停用词
def seg_word (sentence):
    #分词
    seg_list = jieba.cut(sentence)
    seg_result = []
    for w in seg_list:
        seg_result.append(w)
    #读取停用词
    stopwords = set()
    fr = codecs.open('D:\个人资料\数据集\情感词典_微博专用\chineseStopWords.txt','r','utf-8')
    for word in fr:
        stopwords.add(word.strip())
    fr.close()
    #去除停用词
    return list (filter(lambda x: x not in stopwords, seg_result))

#对分词结果分类:情感词、否定词、程度副词
#key未索引,value为权值
def classify_words(word_list):
    #读取情感词典
    sen_file  = open('D:\个人资料\数据集\BosonNLP_情感词典\BosonNLP_sentiment_score\BosonNLP_sentiment_score.txt','r+',encoding='utf-8')
    #获取字典内容
    #去除‘\n’
    sen_list = sen_file.read().splitlines()
    #创建情感词典
    sen_dict = defaultdict()
    #读取字典文件每一行内容,将其转换为字典对象,key为情感词,value为对应的分值
    for s in sen_list:
        <
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值