这个作业属于那个课程 | 自然语言课程 |
这个作业要求在哪里 | http://t.csdn.cn/04wrd |
我在这个课程的目标是 | 通过电商产品评论的分析实现中文文本情感分类 |
这个作业在那个具体方面帮助我实现目标 | 通过自己动手使用不同模型进行情感分析,对分词、词性标注、LDA主题分析、朴素贝叶斯模型等模块运用更加熟练。 |
参考文献 |
一、设计目的
随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值。比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。而这种正负面评价的分析就是情感分析的主要应用场景。
二、设计要求
文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如“华为手机非常好”就是一个正面评价。情感分析主要有五个要素,(entity/ 实体,aspect/ 属性,opinion/ 观点,holder/ 观点持有者,time/ 时间),其中实体和属性合并称为评价对象 (target)。情感分析的目标就是从非结构化的文本评论中抽取出这五个要素。
三、设计内容
随着电子商务的迅速发展和网络购物的流行,人们对于网上购物的需求变得越来越高,这让京东,淘宝等电商平台得到了很大的发展机遇。但是,这种需求也推动了更多的电商平台的发展,引发了激烈的竞争。在这种电商平台激烈竞争的大背景下,除了提高商品质量,压低商品价格外,了解更多的消费者心声对于电商平台来说也越来越重要。其中非常重要的一种方式就是针对消费者的文本评论数据进行内在信息的数据挖掘分析。而得到这些信息,也有利于对应商品的生产自身竞争力的提高。
此次课程设计主要针对京东商城上美的电热水器和联想笔记本电脑的文本评 论数据进行分析。我将对其进行分词、词性标注和去除停用词等文本预处理,基 于预处理后的数据分别使用 LDA 主题模型和朴素贝叶斯算法来对商品评论进行情 感分析。其总体流程图如下图 1。
图1 总体流程图
四、设计过程
4.1 基于LDA主题模型进行电商产品评论数据情感分析
4.1.1 读取数据集
对于京东商城的美的热水器的用户评论,主要用到的数据集有:我从网上找到相关的数据集reviews.csv;与此同时,要实现LDA模型的情感分析,用于分词等数据预处理时的停用词词语集stoplist.txt、否定词的词语集not.csv,也必不可少。为了更好的进行情感分析,我还从网络上收集了标准负面评价词语(中文).txt,正面评价词语(中文).txt,负面情感词语(中文).txt,正面情感词语(中文).txt。