基于结巴分词、SnowNLP、Kmeans自然语言处理之京东评论情感分析

【1】需要处理的评论数据已经存到MongoDB(评论数据总量约为3万条)

import jieba
import jieba.analyse
from pymongo import MongoClient
from snownlp import SnowNLP

comments = ''
client=MongoClient()
results = client.jd.shouhuan.find({})
for result in results:
    for content in result['商品总评论']:
        comments+=content[:-26]    # 第一步去除"噪音"

        
# 【STEP 1 从数据库/文件读取评论内容】
#导入自定义词典   # 【目标:】让jieba识别新词
jieba.load_userdict("/Users/macbookair/Desktop/NLP1221/dict.txt")


# ===START=============================
# 去除停用词    #【目标:】去除文本噪音
# ===================================

stopwords = {}.fromkeys(['一晃','准功','平理','一大','充好',';','?','*','**','??????','1','2','3','4','5','6','7','8','9','10','0','a','b','c','d','e','f','g','h','i','g','k','m','n','o','p','q','r','s','t','u','v','w','x','y','z','*^★*☆','丶','helliphellip',';','*?acute╰╯`?','hellip','哦','与','下次','~','!',"(',')",'�','\n','、','~','再','来','给','有','&','的', '包括', '等', '是', '了', '和','开始','用','怎么','说','呢','还是',',',' ','。',':','而且
  • 0
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值