推荐系统的美好世界

最新推荐文章于 2022-10-04 14:58:14 发布

CDA·数据分析师

最新推荐文章于 2022-10-04 14:58:14 发布

阅读量401

点赞数

分类专栏：大数据时代·社会热点·时事资讯数据科学·人工智能·机器学习·深度学习文章标签：推荐系统

本文链接：https://blog.csdn.net/yoggieCDA/article/details/104948465

版权

大数据时代·社会热点·时事资讯同时被 2 个专栏收录

253 篇文章 5 订阅

订阅专栏

数据科学·人工智能·机器学习·深度学习

248 篇文章 17 订阅

订阅专栏

CDA数据分析师出品

我们为什么要关心推荐系统？

对于大多数人来说，关注推荐系统的关键原因可能是金钱。对于亚马逊，Netflix和Spotify等公司而言，推荐系统可带来巨大的参与度和收入。但这是对事物更加愤世嫉俗的看法。这些公司收入增加的原因是因为它们为客户提供了实际价值 –推荐系统为具有很多项目的场景中的用户提供了一种可扩展的方式来个性化内容。

数据科学家特别应该关注推荐系统的另一个原因是，这是一个真正的数据科学问题。也就是说，至少按照我最喜欢的数据科学定义，即软件工程，机器学习和统计之间的交集。我们将看到，构建成功的推荐系统需要所有这些技能，以及更多。

定义推荐系统

尝试定义任何内容时，合理的第一步是询问Wikipedia。不幸的是，截至本文发布之日，Wikipedia对推荐系统的定义过于狭窄，即“信息过滤系统的子类，旨在预测用户对某项产品的评价或偏好”。

Wikipedia定义的问题在于，推荐系统要比评级预测多得多。首先，推荐者用词不当–称其为发现助手更好，因为所谓的推荐远非束缚。其次，系统意味着诸如表示之类的元素很重要，这是使推荐成为如此有趣的数据科学问题的一部分。

我的定义很简单：

推荐系统是帮助用户发现他们喜欢的物品的系统。

关于推荐系统的常识

准确性神话

准确性度量的脱机优化足以创建成功的推荐者

正如Wikipedia对推荐系统的定义所证明的那样，这也许是最普遍的神话。令人惊讶的是它仍然持续存在，因为距McNee等人关于影响力的论文已经有将近十年了，对准确性测量的关注已经对这一领域造成了影响。

因此，有必要问这个神话来自何方。我的理论是，这是学术界和行业之间的反馈回路。在学术界，发布对脱机数据集上的任意精度度量进行无穷改进的论文非常容易，而在实时系统上进行实验则相对困难。但是，业界对离线预测准确性的高度关注是其中一项举措，该举措来自于行业，以100万美元的Netflix奖的形式，其目的是将Netflix评级预测算法的准确性提高10％。

值得注意的是，三年竞赛中产生的大多数算法从未集成到Netflix中。正如Netflix博客上所讨论的：

您可能想知道两年后赢得100万美元奖金的最终特等奖合奏团发生了什么……我们离线评估了一些新方法，但是我们测得的额外精度增益似乎不足以证明将其投入使用所需的工程努力生产环境。

我们的业务目标是最大程度地提高会员满意度和按月保留订阅人数……现在很明显，Netflix奖目标（准确预测电影的收视率）只是有效优化会员的有效推荐系统的众多组成部分之一’ 享受。

下表说明了一切（摘自上面引用的博客文章的第二部分）：

出现的一个重要问题是：如果用户真的不关心预测准确性，那么他们关心什么？答案是预测准确性具有一定重要性（如上图所示），但这并不是唯一的事情。我认为，关键的考虑因素是UI / UX。您可以获得世界上最准确的建议，但是如果没有通过友好的界面及时提供建议，那么没人会知道（或关心）这些建议。

当然，即使拥有出色的用户界面和准确的预测，在设计推荐系统时也需要注意其他问题。示例包括多样性（显示各种类型的项目），偶然性/新颖性（显示用户尚未了解的非显而易见的建议）和覆盖范围（能够为所有用户和项目生成建议）。Guy Shani和Asela Gunawardana的出色调查涵盖了许多其他考虑因素。

还要注意的是，通用精度度量存在一个固有的问题。具体而言，当使用均方根误差之类的度量时，可以通过减少低评级的误差来使评级预测算法更好地执行。这是毫无意义的，因为在任何情况下都不会向用户显示低评分的项目。

最后，脱机评估出现的一个关键问题是，脱机数据集中存在一些偏差，这些偏差不一定会延续到联机方案中。例如，在许多情况下，有一个隐含的假设，即数据确实不是随机丢失的，例如，用户花费大量精力观看和评价电影的事实已经告诉我们很多关于他们的偏见对于这部电影（获得Netflix奖的团队利用这种偏见来发挥自己的优势）。隐藏此收视率并尝试对其进行预测与预测从整组电影中随机挑选的电影的收视率不同。

黑匣子神话

您可以构建成功的推荐系统，而不必担心所推荐的内容和建议的提供方式

一个好的推荐系统必须考虑用户如何与推荐进行交互。例如，显示的建议数量应告知优化过程（例如，您的目标是Precision @ 1还是precision @ 10？）。这些建议的布局方式（例如，水平/垂直）往往会影响用户交互。此外，能够解释提出建议的原因也可以轻易获胜。最后，在许多情况下，可用于生成建议的时间量受到限制。

除了UI / UX，好的推荐器系统的设计还必须考虑所推荐的内容。例如，音乐曲目和短视频可以播放多次，因此推荐用户已经看过的项目可能是个好主意。另一方面，诸如洗衣机和汽车之类的物品却很少被消耗。如果用户刚购买了一台洗衣机，他们不太可能很快就想要另一台洗衣机（但他们可能想要烘干机或晾衣绳）。

Hynt是电子商务的推荐系统即服务，我一直负责到去年年中。一般的想法是，商家只需在他们的商店页面上添加几行JavaScript，Hynt就在考虑用户和页面上下文的情况下完成了从商店推荐相关商品的艰苦工作。Hynt上线再次确认了许多著名的UI / UX课程。最为显着地：

*高于折痕比低于折痕。*在不滚动的情况下可见的Hynt小部件的参与度高于页面上较低的参与度。
*更多的建议胜于少数。*Hynt小部件具有响应能力，可以适应放置在其中的容器的大小。在显示更多建议时，参与的可能性更大，因为用户更可能无需滚动小部件就能找到自己喜欢的东西。
*快总比慢好。*如果建议的加载速度更快，就会有更多的人看到它们，从而增加了参与度。在Hynt的情况下，速度特别重要，因为在宿主页面完成加载后，窗口小部件将异步加载。

另一个重要的UI / UX元素是解释。在建议旁边显示合理的解释可以产生奇迹，而无需对基础建议算法进行任何更改。Nava Tintarev和Judith Masthoff对解释的影响进行了广泛的研究。他们已经确定了七个不同的解释目标，下表总结了这些目标）。

解释在现实世界的推荐系统中无处不在。例如，亚马逊使用“经常一起购买”和“购买此商品的顾客也购买”之类的解释，而Netflix提供了不同的推荐列表，其中每个列表都是由不同的原因决定的。

解决问题的神话

推荐系统的空间已被详尽探索

大约三年前，当我完成博士学位时，我加入了一家名为Giveable的小型创业公司作为第一名员工（基本上是创始人团队的一部分，该创始人是原始创始人Adam Neumann毕业于AngelCube并筹集了一些种子资金）。Giveable的原始产品是一个webapp，用户可以在其中连接其Facebook帐户并为他们的朋友找到礼物。

当时，关于礼物推荐的研究还很少，关于使用喜欢的页面为Facebook朋友推荐礼物的具体问题也几乎没有。以下是此问题与经典推荐方案不同的一些方法。

*需要考虑给予者和接受者。*与传统方案不同，推荐项不会被显示给他们的用户消费。在实践中，这意味着我们必须要考虑到赠与被赠者之间的关系。例如，妈妈可能给您的礼物类型与伴侣可能给您的礼物不同。
*点赞是历史性的，稀疏的，而且常常是荒谬的。*最好用一个例子来说明：喜欢一个页面，例如澳大利亚历史上的Tony Abbott –最差的PM，告诉我们用户可能喜欢的礼物吗？托尼·阿伯特（Tony Abbott）不再是总理，这是有历史意义的，尽管此页面非常受欢迎，但还有很多其他页面难以解释，只有少数人喜欢它。
*点赞不推荐的项目。*如上面的示例所示，仅仅因为您喜欢Tony，并不能完全带来有用的礼物。即使有与兴趣更相关的事物（例如作者和乐队），也不推荐将喜欢的页面作为礼物。
*点赞并不总是可以离线使用。*这是一个重要的工程考虑：从新用户授予我们查看他们的喜欢和朋友喜欢的角度出发，我们没有太多时间来生成建议。理想情况下，从我们从Facebook获得所有数据开始，推荐生成将花费不到一秒钟的时间。这严重限制了我们可以使用的算法类型。

有效解决Giveable建议问题的关键是尽可能多地进行离线处理。特别：

使用潜在Dirichlet分配（可以视为协作过滤技术）推断出相似的页面。这样就可以使用未直接链接到礼品产品的页面上的信息，例如，在上述Tony Abbott的示例中，不喜欢他的人可能会左倾，这意味着很多其他利益。
Facebook页面与具有启发式Mechanical Turk机器学习功能的优秀产品相匹配。这从本质上是部分手动的半监督学习中进行了几次迭代，在此过程中，我们通过试探法和手动标记获得了高可信度匹配，然后使用它来训练用于对不确定性匹配进行分类的分类器。然后通过手动标记子样本来验证保留集上的分类结果。
我们使用来自Freebase知识图中的结构化信息丰富了页面和产品数据。这使我们能够轻松地将礼品产品与喜欢的页面进行匹配，例如将图书与作者进行匹配。

在线部分包括获取接收者的喜欢页面，推断相似页面的喜欢程度，以及将所有这些页面匹配到优等产品推荐的排名和多样化列表。这些建议附带说明，在这种情况下，说明非常重要，因为送礼物的人必须知道为什么要送礼物。

总之，推荐者与数据科学一样模糊。就像数据科学一样，推荐系统的边界很难定义，有时会被过度宣传。这种炒作可能导致人们在他们真正不需要的推荐系统上进行投资，就像数据科学中过早投资的常见问题一样。但是，炒作是基于真实价值，如果正确使用推荐系统，这些肯定可以实现。

CDA·数据分析师

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
推荐系统的美好世界

CDA数据分析师出品我们为什么要关心推荐系统？对于大多数人来说，关注推荐系统的关键原因可能是金钱。对于亚马逊，Netflix和Spotify等公司而言，推荐系统可带来巨大的参与度和收入。但这是对事物更加愤世嫉俗的看法。这些公司收入增加的原因是因为它们为客户提供了实际价值 –推荐系统为具有很多项目的场景中的用户提供了一种可扩展的方式来个性化内容。数据科学家特别应该关注推荐系统的另一个原...
复制链接

扫一扫