信息检索(31):On the Calibration and Uncertainty with Polya-Gamma Augmentation for ´ Dialog Retrieval Mod

On the Calibration and Uncertainty with Polya-Gamma Augmentation for Dialog Retrieval Models


原文链接:https://arxiv.org/abs/2303.08606(AAAI系列)
(2023)


摘要

深度神经检索模型已经充分证明了它们的力量,但估计其预测的可靠性仍然具有挑战性。大多数对话响应检索模型都会针对响应与给定问题的相关程度输出单个分数。然而,深度神经网络的糟糕校准导致单个分数存在各种不确定性,使得不可靠的预测总是会误导用户决策。为了研究这些问题,我们提出了一种用于对话响应检索模型的有效校准和不确定性估计框架 PG-DRR,该框架将高斯过程层添加到确定性深度神经网络中,并通过 Polya-Gamma ’ 增强恢复共轭性以实现易于处理的后验推理。最后,PG-DRR 在域内数据集和分布平移任务中实现了最低的经验校准误差(ECE),同时保持 R10@1 和 MAP 性能。

1.引言

基于深度神经网络的对话响应检索模型在多个基准上显示出令人印象深刻的结果(Gu et al 2020;Lu et al 2020;Whang et al 2021)。然而,在部署到实际应用程序中时,这些模型的预测总是无法提供适当的答案。例如,如果问题超出训练分布,流行的对话代理总是向用户显示错误的预测,这可能会误导他们的决策。因此,理想的模型应该在它们可能出错的时候避免。最简单的解决方案是提供相应的置信度估计,从而可以放弃低置信度的预测。这个问题也被定义为模型校准:确保预测的置信度与实际正确概率良好相关。
一般来说,基于检索的对话模型将其对响应相关性的估计视为确定性分数,这可能会受到过度置信问题的影响,即校准不当(Guo et al 2017)。现有的工作通常通过可能分数的分布来量化预测的不确定性以实现校准(Cohen et al 2021)。具体来说,分布的均值代表模型的预测,而其相应的方差则捕获模型的不确定性。因此,高方差可能意味着该模型对预测不确定并且应该放弃,即使它被评为热门命中之一
计算对话模型预测不确定性的两种原则方法是深度集成方法和贝叶斯方法。贝叶斯方法 (Cohen et al 2021) 在模型参数上放置先验分布,而深度集成 (Penha and Hauff 2021) 通常独立训练多个模型。由于其高推理成本和巨大的内存需求,它们在工业规模上实施具有挑战性。这激励我们研究只需要确定的深度神经网络即可实现高质量不确定性估计的原则方法。
高斯过程 (GP) (Rasmussen 2003) 是在各种任务中表现良好的灵活模型。与现有的工作不同,GP属于非参数贝叶斯方法,只需要学习一些超参数。当与高斯似然相结合时,GP 可以获得预测分布和后验分布的闭合形式表达式(Snell 和 Zemel 2021),这减轻了贝叶斯方法与立方尺度示例的计算缺陷。此外,GP 很容易与单个深度神经网络结合,无需独立训练多个模型。然而,GP 很难扩展到大型数据集进行分类,部分原因是目标变量的分类分布导致非高斯后验,我们无法获得封闭形式的边际似然。一个特别有趣的方法系列是向 GP 模型添加额外的 Polya-Gamma 变量(Polson、Scott 和 Windle 2013),以便在原始模型被边缘化时恢复它。

在这项研究中,我们致力于研究一种简单而有效的方法 PG-DRR,通过结合 Polya-Gamma ’ 增强来校准对话响应检索模型。具体来说,我们在确定性深度神经网络中添加神经高斯过程层以实现更好的校准。重要的是,我们使用 Polya-Gamma (PG) 增强来恢复共轭性以进行易处理的后验推理,并使用吉布斯采样从后验中收集样本,以改进均值和协方差函数的参数。此外,我们还从理论上验证了为什么PG-DRR可以被校准。本文的重要贡献如下:
·我们提出了一个有效的框架 PG-DRR,用于确定性对话响应排名模型来估计不确定性。我们在两个域内数据集和分布式转移任务中产生最低的 ECE,同时保持 R10@1 和 MAP 性能。
• 我们创新性地使用带有Polya-´ Gamma 增强的高斯过程层来估计对话检索任务中的不确定性。另外,我们从理论上分析了PG-DRR可以实现校准。
• 我们进行了大量的实验来验证PG-DRR 在保持性能的同时能够很好地进行校准。此外,消融研究分析了核函数和PG-DRR模型架构对有效性提高的相对贡献。

  • 14
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值