《Python数据分析与挖掘实战》第15章 ——电商产品评论数据情感分析

文章目录

  • 1.挖掘背景与目标
  • 2.2 数据探索与预处理
  • * 2.1 数据筛选 
    
    • 2.2 数据去重
    • 2.3 删除前缀评分
    • 2.4 jieba分词
  • 3 基于LDA 模型的主题分析
  • 4.权重
  • 5.如何在主题空间比较两两文档之间的相似度

本文是基于《Python数据分析与挖掘实战》的实战部分的第15章的数据——《电商产品评论数据情感分析》做的分析。

旨在回顾对评论文本数据的处理和建模方法。

1.挖掘背景与目标

对京东平台上的热水器评论进行文本挖掘分析,挖掘建模如下:

  • 分析某一个品牌热水器的用户情感倾向

  • 从评论文本中挖掘出该品牌热水器的优点和不足

  • 提炼不同品牌热水器的卖点

2.2 数据探索与预处理

2.1 数据筛选

    #-*- coding: utf-8 -*-
    import pandas as pd
    
    inputfile = '../data/huizong.csv' #评论汇总文件
    outputfile = '../data/meidi_jd.txt' #评论提取后保存路径
    data = pd.read_csv(inputfile, encoding = 'utf-8')
    data = data[[u'评论']][data[u'品牌'] == u'美的']
    data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')

2.2 数据去重

    #-*- coding: utf-8 -*-
    import pandas as pd
    
    inputfile = '../data/meidi_jd.txt' #评论文件
    outputfile = '../data/meidi_jd_process_1.txt' #评论处理后保存路径
    data = pd.read_csv(inputfile, encoding = 'utf-8', header = None,sep = None)
    l1 = len(data)
    data = pd.DataFrame(data[0].unique())
    l2 = len(data)
    data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')
    print(u'删除了%s条评论。' %(l1 - l2))

安利一款可以做情感分析的软件叫做:ROST CM6,注意你提交的文件必须是ANSI编码࿰

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Python数据分析挖掘实战是一本介绍如何使用Python进行数据分析挖掘的书籍。在电商产品评论数据中,LDA(Latent Dirichlet Allocation)是一种常用的机器学习算法。 LDA算法是一种基于概率图模型的无监督学习算法,它能够从文档集合中自动识别出潜在的主题,并将每个文档分配给一个或多个主题。在电商产品评论数据中,可以使用LDA算法来探索消费者对产品的评价和观点。 首先,需要将电商产品评论数据作为输入,可以使用Python数据分析库(如pandas)进行导入和预处理。然后,使用自然语言处理库(如NLTK或spaCy)对评论进行分词和清洗,去除无用的标点符号和停用词。 接下来,在预处理后的评论数据上运行LDA算法。首先,需要将评论数据转化为词袋模型或TF-IDF向量表示形式。然后,使用LDA模型进行主题建模,通过训练模型来确定主题和主题词,并将每个评论分配给对应的主题。 最后,可以通过可视化工具(如pyLDAvis)将LDA模型的结果进行可视化,显示主题之间的关系以及每个主题的主题词。 使用LDA算法对电商产品评论数据进行分析和挖掘可以帮助企业了解消费者对产品的偏好和评价,从而改进产品设计和营销策略。此外,还可以帮助企业发现潜在的问题和改进方向,提高产品质量和消费者满意度。 总而言之,Python数据分析挖掘实战可以帮助读者了解如何利用Python进行数据分析挖掘,并且在电商产品评论数据中,LDA算法是一种有效的方法,可以帮助企业挖掘潜在的主题和消费者观点。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值