使用开源概率编程语言 Pyro 对截尾时间 - 事件数据进行建模

最新推荐文章于 2022-03-28 17:48:17 发布

置顶

编程鸭

最新推荐文章于 2022-03-28 17:48:17 发布

阅读量681

点赞数 1

分类专栏：编程语言软件编程文章标签：互联网编程语言

本文链接：https://blog.csdn.net/weixin_44811417/article/details/91340694

版权

在 Uber，我们有兴趣调查乘客在平台上完成首次乘坐到第 2 次乘坐之间的时间跨度。我们的很多乘客是通过推荐或促销活动首次与 Uber 进行互动的。他们的第 2 次乘坐是个关键指标，表明乘客在使用平台的过程中发现价值并愿意长期使用我们服务。然而，对第 2 次乘坐时间建模是件棘手的事。例如，一些乘客不经常乘车。在分析这类乘客的第 2 次乘坐之前的时间 - 事件数据时，我们认为他们的数据就是截尾数据。

在其他公司和行业中都存在类似的情况。例如，假设某个电商网站对客户经常性购买模式感兴趣。但是，由于客户行为模式的多样性，该公司也许无法观察到所有客户的所有经常性购买行为，从而导致截尾数据的产生。

在另一个例子中，假设某个广告公司对其用户的重复点击行为感兴趣。由于每个用户的兴趣不同，该公司无法观察到其用户的所有点击行为。用户也许在研究结束后才点击广告。这样就会产生到下一次点击数据的截尾时间。

在截尾的时间 - 事件数据建模中，对用 i

ii 索引的每个感兴趣的个体，我们都可以以下面的形式观察数据：

( T i , L i )

(Ti,Li)(Ti,Li)

其中， L I

LILI 是截尾标识。如果观察到感兴趣的事件，那么 L i = 1 Li=1Li=1 ；如果感兴趣的事件截尾，那么L i = 0 Li=0Li=0 。当 L i = 1 Li=1Li=1 时， T i TiTi 表示感兴趣的时间 - 事件。当 L i = 0 Li=0Li=0 ，那么 T i TiTi 代表截尾发生之前的时间长度。

我们继续讲 Uber 的第 2 次乘坐时间的例子：如果某个乘客在其首次乘坐 12 天后才进行第 2 次乘坐，那么该观察就记录为（12，1）。在另一种情况下，如果某个乘客在首次乘坐后过去了 60 天，并且在给定的截止日期前还没返回到应用程序进行第 2 次乘坐，那么该观察就记录为（60，0）。这种情形如下图所示：

在该领域有大量的分析文献，并且研究时间已经有一个多世纪之久；其中大部分可以用统计编程框架进行简化。在本文中，我们将介绍如何使用 Pyro 概率编程语言来为截尾的时间 - 事件数据建模。

与流失建模之间的关系

在我们继续之前，值得一提的是，很多行业从业者通过人为设置“流失”标签的方式来规避截尾的时间 - 事件数据的挑战。例如，如果一家电商的客户在过去 40 天中没有回到网站进行另一次购买，那么该电商可以把该客户定位为“流失”。

流失建模使得从业者把观察转换为经典的二元分类模式。因此，流失建模就会像使用 scikit-learn 和 XGBoost 这样的现成工具那么简单。例如，上述的两位乘客将分别被标注为“未流失”和“流失”。

尽管流失模型在特定情形下是可行的，但其不一定适用于 Uber。例如，某些乘客只在出差时使用 Uber。如果该假设的乘客每 6 个月出一次差，那么我们最终就会把该商务乘客误标注成“流失”。因此，我们从流失模型中提取的结论可能产生误导。

我们也有兴趣从这些模型中进行解释，以阐明不同因素对观察到的用户行为的影响。因此，模型不应该是个黑匣子。我们希望能够开放该模型并用它做出更明智的业务决策。

为了实现这一点，我们可以将 Pyro 这一灵活且富有表现力的开源工具用于概率编程。

用于统计建模的 Pyro

创建于 Uber 的 Pyro 是用 Python 编写的通用概率编程语言，构建于 PyTorch 张量计算库的基础之上。

如果你具有最小贝叶斯建模知识的统计背景，或是你一直在用 TensorFlow 或 PyTorch 这样的深度学习工具，那么你的运气很好。

下表总结了一些最受欢迎的概率编程项目：

下面，我们将重点介绍这些不同软件

最低0.47元/天解锁文章

编程鸭

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用开源概率编程语言 Pyro 对截尾时间 - 事件数据进行建模

在 Uber，我们有兴趣调查乘客在平台上完成首次乘坐到第 2 次乘坐之间的时间跨度。我们的很多乘客是通过推荐或促销活动首次与 Uber 进行互动的。他们的第 2 次乘坐是个关键指标，表明乘客在使用平台的过程中发现价值并愿意长期使用我们服务。然而，对第 2 次乘坐时间建模是件棘手的事。例如，一些乘客不经常乘车。在分析这类乘客的第 2 次乘坐之前的时间 - 事件数据时，我们认为他们的数据就是截尾数据。...
复制链接

扫一扫