DialFact: A Benchmark for Fact-Checking in Dialogue

摘要:

事实核查三个子任务:
1)Verifiable claim detection task distinguishes whether a response carries verifiable factual information;可验证断言探测任务:判断是否有可验证的事实信息
2) Evidence retrieval task retrieves the most relevant Wikipedia snippets as evidence;证据检索任务:检索最相关的维基百科代码片段作为证据;
3) Claim verification task predicts a dialogue response to be supported, refuted, or not enough information。断言验证任务:判断对话相应是正确、错误还是信息不足无法判断。

我们指出了对话事实中的独特挑战,如处理错误分析中的口语化、共引用和检索歧义,以阐明这个方向的未来研究。

Introduction:

三个挑战:

  1. 口语化:验证对话中主张的事实正确性对数据集的构建和建模都提出了新的挑战。现有数据集中的claim来自正式来源,如新闻文章,它们通常简洁和正式。相比之下,对话中的主张往往是非正式的,而事实内容却很少。此外,对话话语通常包括个人观点、俚语和口语化,这些都需要与事实信息区分开来。
  2. 对话事实核查的另一个挑战是省略和共引用经常发生,使话语不完整和不明确。
  3. 歧义?实体消歧和共指消解 虽然根据对话,人们可以很容易地理解带有引用或缺少信息的话语上下文和他们的推理技巧,一个事实核查系统可能需要对这种行为进行显式建模。

模型任务实现:为了验证事实,我们建议通过利用否定、实体交换、语言模型掩码和填充和知识基础生成等技术来创建弱监督的训练数据。我们在这个任务上建立了基准模型的性能,并指出了事实核查模型的弱点。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值