TKDE2018: 早期购买行为的分析和预测建模

前言:本文是关于在电子商务网站中早期购买行为的刻画和预测,是我们发表在2018年TKDE的工作,有问题请联系我,转载请注明出处。

本文作者:白婷,博士生,中国人民大学,大数据管理与分析方法研究北京市重点实验室。

研究方向为:推荐系统,深度学习,关注深度学习在推荐模型中的应用,电商用户行为分析建模和应用。

本文首发于知乎[RUC智能情报站],如需转载请告知作者并注明本专栏文章地址

论文: Characterizing and Predicting Early Reviewers for Effective Product Marketing on E-Commerce Websites. (TKDE'18)

作者: Ting Bai, Wayne Xin Zhao, Yulan He, Jian-Yun Nie, Ji-Rong Wen.

论文和 slides见个人主页tbbaby.github.io/baitin

一、写作动机

电子商务网站中,是由用户和商品两个部分构成的相互依存的电商生态系统。用户在购买商品时,往往会很看重评论的信息。商品的销售也遵循着一种马太效应,商品评价越多,越好,越有可能被购买。本文即针对商品的早期评论者进行分析和预测,解决新商品的冷启动问题,帮助后期用户的购买决策。文章首次给出早期评论者的划分方法和定义,定量分析了早期评论者的属性、对商品评分、其评论的帮助性、文本长度,并在电子商务网站中,找到社会学中创新传播的理论的支撑;提出了预测早期购买者的模型,旨在为电商中新商品的推广启动和帮助用户购买决策提供理论支撑。

(注:用户一般在购买商品后才会发表评论,由于我们只能拿到评论数据,故后文中早期评论者也可以理解为早期购买者;区别于用户个性化推荐,本文着眼研究电商生态系统中的另一个重要组成部分:商品,为商品寻找早期评论者,进而帮助用户做购买决策)

对早期评论者的研究目前对电商网站具有重要的意义:

亚马逊的商家发现了新商品上市时,早期购买者的评价的重要性,提出亚马逊葡萄树,通过提供免费的商品试用,来鼓励一些早期用户写出详细完善的商品评论。再举一个贴近生活的例子,大家在淘宝网站购物收到商品的同时,也经常会收到商家寄来“好评返现”的纸片,尤其是刚刚起步的小众商家,或者推出的商品没有什么评论的时候。这些商家让出一部分利益来换取早期购买用户的优质评论,从而吸引更多的人来购买。

以上的例子都说明一个问题,在电子商务网站上,早期购买者对商品的评论非常重要,会影响到后续购买者的决策,从而影响商品的整个销量,影响电商的市场利益。本文对两个电商数据集Amazon 和Yelp, 对早期评论者进行定性和定量的分析,最后提出预测模型。


二、早期评论者定义和分析

  1. 定义早期评论者的方法
  • 定义具有完整生命周期的商品


  • 去除垃圾用户

早期评论者中很可能会存在由于商业目的而刷评论的垃圾用户,我们采用三种办法来过滤垃圾用户:基于用户评论的偏差性(如评分都很高),基于评论文本的属性(如文本重复等),基于评论时间(如短时间多条评论)。

  • 依据Roger 的diffusion of innovations的理论划分早期评论者

2. 早期评论者统计学分析

  • 用户充当早期评论者的次数和用户量呈现power-law 分布

  • 在不同商品类别下用户充当早期评论者的热情不同:如在母婴类的产品中,用户比较谨慎,平均充当早期评论者的次数较少,而在时尚类别中,用户会更多的充当早期评论者。


3. 早期评论者评论属性的定量分析

  • 早期评论者会倾向给出高的评价分数

  • 早期评论者会的评论对后期用户更有帮助

以上两条定量分析我们在社会学家Roger( Diffusion of Innovations Theory)中找到了理论支撑,印证了在电子商务网站中,同样符合社会学中创新的传播规律:

  • Principle about personality variables: Earlier adopters have a more favorable attitude toward changes than later adopters;(将早期评论者的评分看做对新事物的态度,早期评论者对新的商品评分更高,即具有更加积极的态度)
  • Principle about communication behavior: Earlier adopters have a higher degree of opinion leadership than later adopters.(将早期评论者评论的帮助性看做是对新事物观点的导向性,早期评论者对商品的观点更有帮助,即更有观点引导力)

4. 早期评论者对商品销量的影响

  • 早期评论者的评分越高,商品销量越大
  • 早期评论者对商品评分正面(大于评分media 值),且该评论被认为有用,商品销量越大;对商品评分负面,且被认为有用,则商品销量越小。

三、早期评论者的预测模型

  1. 问题定义

给定商品p和候选的users集合,早期评论者预测任务即是预测tok-K个最早发表评论的用户,本质是所有用户的ranking 问题。

Challenge: 商品的冷启动问题

我们是解决商品的早期购买者问题,当一个新的商品发布时,用户购买评论行为几乎是没有的,下面我们将介绍我们提出的预测模型,来解决商品冷启动这一挑战。

2. 预测模型:Our Margin-based Embedding Model (MERM)

  • 评分函数

给定一个商品p, 用户u对商品p的早期评论评分函数(early index score),可以刻画为:

对所有用户的评分函数做ranking, 即可得到top-K个最早期评论者的预测结果。

  • 模型训练

采用competition-based viewpoint to the ranking task. 对于pairwise u 和u'(u 的评论时间早于u'), 我们保证早期评论评分值S(p, u)> S(p, u').

商品向量由带类别标签的doc2vec无监督学习,从而可以解决商品冷启动时,无用户数据的挑战,用户向量是训练过程中的学习参数,最后给定新商品和用户,我们可以得到其充当早期评论这的评分值,用作top-K的ranking.

算法流程图如下:

2. Baselines and comparison

3. 评价指标

  • Overlapping Ratio at rank k (OR@k): 预测用户前 K个与真实集合前K个用户的重复率
  • Hit ratio at rank k (Hit@k): 预测用户前K个真实是早期购买者的命中率
  • Ratio of Correct Comparison Pairs (RCCP) :pairwise 比较重的准确率

4. 数据集和实验结果

我们选取了Amazon 和Yelp 两个数据集,数据统计和实验结果如下:

写在最后:这篇工作是我做的最久的一个,模型比较简单是因为是两年前的工作,期刊审稿周期差不多一年,拖到了现在(在投稿等待的过程中,新的模型做好也没有更新了)有两点思考希望能和大家分享:

  1. 在电商生态系统中,大多研究关注点在于消费者,对用户做个性化推荐,而对于电商中的生产者:商家、商品关注度寥寥,对于新的商家、新的商品,如何使其更快的被有需求的用户找到(付费推广算一种方式),也应该是促使电商生态更好共生发展的研究方向。
  2. 本文是一篇分析类的文章,重点在于对电子商务网站,早期购买者的属性、行为、影响定性定量分析,分析类的文章对问题的定义,思考每个分析的point,最后讲成完整的故事可能要比纯做模型更花时间,希望能够给大家借鉴。
转载:https://zhuanlan.zhihu.com/p/38117606?utm_medium=social&utm_source=wechat_timeline&from=timeline
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值