文章目录
- 1.挖掘背景与目标
- 2.2 数据探索与预处理
-
* 2.1 数据筛选
- 2.2 数据去重
- 2.3 删除前缀评分
- 2.4 jieba分词
- 3 基于LDA 模型的主题分析
- 4.权重
- 5.如何在主题空间比较两两文档之间的相似度
本文是基于《Python数据分析与挖掘实战》的实战部分的第15章的数据——《电商产品评论数据情感分析》做的分析。
旨在回顾对评论文本数据的处理和建模方法。
1.挖掘背景与目标
对京东平台上的热水器评论进行文本挖掘分析,挖掘建模如下:
-
分析某一个品牌热水器的用户情感倾向
-
从评论文本中挖掘出该品牌热水器的优点和不足
-
提炼不同品牌热水器的卖点
2.2 数据探索与预处理
2.1 数据筛选
#-*- coding: utf-8 -*-
import pandas as pd
inputfile = '../data/huizong.csv' #评论汇总文件
outputfile = '../data/meidi_jd.txt' #评论提取后保存路径
data = pd.read_csv(inputfile, encoding = 'utf-8')
data = data[[u'评论']][data[u'品牌'] == u'美的']
data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')
2.2 数据去重
#-*- coding: utf-8 -*-
import pandas as pd
inputfile = '../data/meidi_jd.txt' #评论文件
outputfile = '../data/meidi_jd_process_1.txt' #评论处理后保存路径
data = pd.read_csv(inputfile, encoding = 'utf-8', header = None,sep = None)
l1 = len(data)
data = pd.DataFrame(data[0].unique())
l2 = len(data)
data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')
print(u'删除了%s条评论。' %(l1 - l2))
安利一款可以做情感分析的软件叫做:ROST CM6,注意你提交的文件必须是ANSI编码