2020年美赛C题（数据分析题）O奖论文笔记 (1)

本文链接：https://blog.csdn.net/weixin_44026604/article/details/113112125

2021/01/30 upd：2020年美赛C题（数据分析题）O奖论文笔记 (2) 已经上传，可戳这里查看！

这是我的第1篇论文笔记，如有哪里不好还请见谅并批评指正，之后会不断改进！首先复现一下题目：

读了第一段，我们感觉这应该是一道挺接地气的题目。你想知道想淘宝、京东这些购物巨商是怎么从用户点赞、评论的数据中调整战略的吗？接着往下看。

Sunshine公司要我们做的有两件大事：1）告诉他们销售策略；2）告知他们商品潜在的重要特性，好让商品变得更有营销力。

公司给我们提供了一些数据集。数据集有三个，代表三类不同产品，类似如下形式：

这些字段的含义如下：

接着介绍了本次题目的一些要求，我们一起来学习一下：

第1题是要我们数学建模，分析出star ratings，reviews，helpfulness ratings的内外关系。

2a：确定基于rating和review的评价衡量标准（给评价）

2b：确定基于时序的方法，评判一个产品的声誉是在上升还是下降
2c：确定基于文本和星级的方法，评判一个产品是成功还是失败的

2d：特定星级会引起更多的评论吗？
2e：特定评论的关键词，与星级有较大关联吗？

第3题是我们写一封建议信。
之后是一些要求和说明：

以上就是C题的要求，下面简单做一下其中一篇O奖论文的笔记。

在这里插入图片描述
标题直接告诉我们：探寻rating和review的秘密，直接量出论文分析处理的关键词。

论文Summary写作思路：

1段：紧扣材料重述问题
2段：概述问题1的解决思路
3段：概述问题2的解决思路，先提出了建模分析之后的结论
4段：说写了一封信给Sunshine公司
5段：夸一下自己的模型

接下去是Introduction，和summary区别不大，只是加上了一些文章结构的描述。

The rest of the paper is organized as follows. In section 2, we list…

接着是假设和符号说明（Assumptions and Notations），下来逐个解决问题。

在这里插入图片描述

此部分主要构建文本打分模型。

本部分介绍了CE模型和VADER模型的一些建模实现：

筛选出种子词：

作者在此处将词语分成了5类，恰好对应五星级评价系统。
CE块：
这里用的应该是上下文本信息熵，反正就是各种秀，用上了各种机器学习的公式。处理完之后到一个五维向量，从左到右，向量的每个值依次代表强负，弱负，中性，弱正，强正的概率。
VADER块：
vader是一种基于词库和语法规则来进行文本情感识别的方法，发表于2014年的AAAI会议， github上地址是Github地址，这里处理完之后也是得到一个五维的向量。
CE和VADER的融合：
上面得到两个五维向量的凸线性组合，得到一个文本的综合评价。

在这里插入图片描述
这一部分确定出基于文本和评价的解决方案。提出了评论重要性（IMP），星级度量VEC（S_id）和文本度量INT（R_id）的关系式子：

很复杂。。。

在这里插入图片描述
这里用了DTW相似性评估了一下模型的效果（鲁棒性）。

商品名誉的变化可以通过下面公式进行计算：

同样还是挺复杂的，这篇文章的作者们似乎对公式理论的理解洞察深刻。

评价模型：
在这里插入图片描述

时间序列预测使用AR模型

用朴素贝叶斯给不同类情感词打分

这里主要是根据数据分析的结果，提炼出商品受欢迎所具有的特征。

pacifier：size，appearance，convenience，safety
microwave：appearance，price，component
hair dryer：power，appearance，safety，working volume

在这里插入图片描述
这里根据建模结果提出一些销售战略建议：

具有较多helpful votes的reviews应该得到重视
维持五星级，这跟产品名誉紧密相关

还有5~6条，这里就不一一列举了。
在这里插入图片描述
Strengths

创新：首次提出使用CE-VADER模型来评价文本信息
准确：使用文本信息打分和星级打分高度一致
普适：换个数据集过来也可以分析
鲁棒：参数鲁棒

Weaknesses

注解关键词非常耗时
CE-VADER不能识别过去时动词、形容词比较级等
分析特定评价时，没有将Amazon当时的营销战略考虑在内

在这里插入图片描述

Information Evaluation Model can combine the text-based measure with the rating-based
measure, where we propose a novel CE-VADER hybrid model for the sentiment analysis as the text-based measure.
We employ the Difference Equation Model to construct a “reputation rate” to quantify the
reputation of three products
In analyzing the distribution of star ratings and specific words, we identified special review descriptors by employing a continuous extreme rating and a set of special words.

在这里插入图片描述
信件的细节就不细讲了。这里写的信件高中生也是可以看懂的，毕竟写给企业高管，不要太学术化：