代码已经放在github上,本人水平有限
题目分析以及思路
a题
Identify data measures based on ratings and reviews that are most informative for Sunshine Company to track, once their three products are placed on sale in the online marketplace.
题目中明确说明了1.基于ratings和reviews。2.在上线售卖后的影响
- 那么应该怎么做呢。首先是确定相关性。分析数据我们可以知道,给的数据中review_body无疑是最重要的review。它和star_rating的关系是挖掘中的基础。你如果模型建立出来这两个没有极强的正相关肯定说明你模型搭错了。
- customer_id和total_votes是这个题可以扩展的点
工具推荐
有很多小伙伴私信我说没有做这方面的经验而且小组里面的代码手不熟悉nlp
我给大家提供一些集成的nlp分析工具使用
企业级别的(中文英文都有):