《Python数据分析与挖掘实战》第15章 ——电商产品评论数据情感分析

最新推荐文章于 2023-03-12 11:21:52 发布

wx1871428

最新推荐文章于 2023-03-12 11:21:52 发布

阅读量1.1k

点赞数 1

分类专栏：数据分析 Python

本文链接：https://blog.csdn.net/wx1871428/article/details/118396131

版权

文章目录

1.挖掘背景与目标
2.2 数据探索与预处理
```
* 2.1 数据筛选 
```
- 2.2 数据去重
- 2.3 删除前缀评分
- 2.4 jieba分词
3 基于LDA 模型的主题分析
4.权重
5.如何在主题空间比较两两文档之间的相似度

本文是基于《Python数据分析与挖掘实战》的实战部分的第15章的数据——《电商产品评论数据情感分析》做的分析。

旨在回顾对评论文本数据的处理和建模方法。

1.挖掘背景与目标

对京东平台上的热水器评论进行文本挖掘分析，挖掘建模如下：

分析某一个品牌热水器的用户情感倾向
从评论文本中挖掘出该品牌热水器的优点和不足
提炼不同品牌热水器的卖点

2.2 数据探索与预处理

2.1 数据筛选

    #-*- coding: utf-8 -*-
    import pandas as pd
    
    inputfile = '../data/huizong.csv' #评论汇总文件
    outputfile = '../data/meidi_jd.txt' #评论提取后保存路径
    data = pd.read_csv(inputfile, encoding = 'utf-8')
    data = data[[u'评论']][data[u'品牌'] == u'美的']
    data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')

2.2 数据去重

    #-*- coding: utf-8 -*-
    import pandas as pd
    
    inputfile = '../data/meidi_jd.txt' #评论文件
    outputfile = '../data/meidi_jd_process_1.txt' #评论处理后保存路径
    data = pd.read_csv(inputfile, encoding = 'utf-8', header = None,sep = None)
    l1 = len(data)
    data = pd.DataFrame(data[0].unique())
    l2 = len(data)
    data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')
    print(u'删除了%s条评论。' %(l1 - l2))

安利一款可以做情感分析的软件叫做：ROST CM6，注意你提交的文件必须是ANSI编码࿰

最低0.47元/天解锁文章

wx1871428

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
2
评论
《Python数据分析与挖掘实战》第15章 ——电商产品评论数据情感分析

文章目录1.挖掘背景与目标2.2 数据探索与预处理* 2.1 数据筛选 2.2 数据去重2.3 删除前缀评分2.4 jieba分词3 基于LDA 模型的主题分析4.权重5.如何在主题空间比较两两文档之间的相似度本文是基于《Python数据分析与挖掘实战》的实战部分的第15章的数据——《电商产品评论数据情感分析》做的分析。旨在回顾对评论文本数据的处理和建模方法。1.挖掘背景与目标对京东平台上的热水器评论进行文本挖掘分析，挖掘建模如下：分析某一个品牌热水器的用户情感
复制链接

扫一扫