《Python数据分析与挖掘实战》第15章 ——电商产品评论数据情感分析

文章目录

  • 1.挖掘背景与目标
  • 2.2 数据探索与预处理
  • * 2.1 数据筛选 
    
    • 2.2 数据去重
    • 2.3 删除前缀评分
    • 2.4 jieba分词
  • 3 基于LDA 模型的主题分析
  • 4.权重
  • 5.如何在主题空间比较两两文档之间的相似度

本文是基于《Python数据分析与挖掘实战》的实战部分的第15章的数据——《电商产品评论数据情感分析》做的分析。

旨在回顾对评论文本数据的处理和建模方法。

1.挖掘背景与目标

对京东平台上的热水器评论进行文本挖掘分析,挖掘建模如下:

  • 分析某一个品牌热水器的用户情感倾向

  • 从评论文本中挖掘出该品牌热水器的优点和不足

  • 提炼不同品牌热水器的卖点

2.2 数据探索与预处理

2.1 数据筛选

    #-*- coding: utf-8 -*-
    import pandas as pd
    
    inputfile = '../data/huizong.csv' #评论汇总文件
    outputfile = '../data/meidi_jd.txt' #评论提取后保存路径
    data = pd.read_csv(inputfile, encoding = 'utf-8')
    data = data[[u'评论']][data[u'品牌'] == u'美的']
    data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')

2.2 数据去重

    #-*- coding: utf-8 -*-
    import pandas as pd
    
    inputfile = '../data/meidi_jd.txt' #评论文件
    outputfile = '../data/meidi_jd_process_1.txt' #评论处理后保存路径
    data = pd.read_csv(inputfile, encoding = 'utf-8', header = None,sep = None)
    l1 = len(data)
    data = pd.DataFrame(data[0].unique())
    l2 = len(data)
    data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')
    print(u'删除了%s条评论。' %(l1 - l2))

安利一款可以做情感分析的软件叫做:ROST CM6,注意你提交的文件必须是ANSI编码࿰

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值