电商女装评价分析
数据来源:https://www.kesci.com/home/dataset/5aab7e09afaabd5e93e4df30/project
项目背景
基于某电商女性服装评论数据集,从“人—货—场(店)”三个角度进行分析,以期得到不同年龄段的消费者评论的情况,不同类型服装被评论的情况,整体店铺的好评推荐情况
数据概况
数据集共包含23486行和10个特征变量。
根据特征变量的特性,我们将其分为4类。
- 消费者信息类
Age:消费者的年龄 - 商品特征类
Clothing ID:服装编号,具有唯一性
Division Name:一级分类。分为General(常规服饰)、General Petite(小个子服饰)、Intimate(私人贴身服饰)。
Department Name:二级分类。例如Tops(上装)、Bottoms(下装)、Dresses(裙装)等
Class Name:三级分类。例如Pants(裤子)、Skirts(半身裙)、Jeans(牛仔裤)等,它们都属于Bottoms(下装)类。 - 评论信息类
Title:评论的标题
Review Text:评论的内容
Rating:星级,1~5级,级别越高表示越满意
Recommended IND:是否推荐,1表示推荐,0表示不推荐 - 其他购买者对于评论的反馈
Positive Feedback Count:积极的反馈计数,可以理解为有多少人“觉得评论对自己有用”
数据处理
Title、Review Text、Division Name、Department Name、Class Name包含缺失值。
Title、Review Text缺失数据较多,但是Rating和Recommended IND并没有缺失值。这部分消费者只是没有写文字性的评论,Rating和Recommended IND两项可以代表他们对商品的态度,所以保留Title、Review Text的缺失数据。
Division Name、Department Name、Class Name均有14项缺失值,数据量极少,所以选择删除这14条数据。
为了方便分析,增加一列“rating rank”(L列),计算公式为lookup(F列,{0,3,4},{“negative”,” neutral”,” positive”}) F列为rating列。
Rati