问答技术-CQA

1、概念与特点

从美团公布的智能问答技术文章中第一次看到了Community Question Answer/CQA词汇,其中描述CQA与FAQ类似,也是基于问答对的问答系统。CQA是通过社交平台获得大量用户衍生的问题答案对,维基于问答对的问答系统提供稳定可靠的数据。如在美团和大众点评APP中,商户详细页中有一个"问大家"模块,其问题和答案都是由用户生成,含有关于当前商户许多用户关心的关键信息,比如景点相关的"是否允许携带宠物"等客观问题,以及"停车是否方便"等主观问题,很大程度上能回答用户对于景点或其他商户的开放域问题。

2、美团智能问答技术路线

此方案出自此文章,具体阅读完该文章内容后,觉得CQA是与用户场景紧密结合的IRQA,提供的处理框架如图1所示;将问题处理分为两个阶段,首先离线阶段通过低质量过滤、答案质量排序等维护一个相对质量较好的问题-答案库,在线阶段,从知识库中检索得到答案并回答用户
在这里插入图片描述

图1 CQA问答处理框架

2.1、答案质量过滤

由于数据中用户回复答案质量的参差不齐,需要过滤掉与问题无关的低质量答案,保留相关性强的答案。采取以下方法保证答案质量:

  • 低质量答案过滤:存在一些无意义、广告、不礼貌等低质量答案,严重影响答案质量和用户体验。通过对问答数据分析并总结出一些广告、不礼貌的敏感词和Pattern,通过Pattern匹配的方式过滤;总结一些表示无意义信息的关键词,更新到停用词表中,通过计算答案中停用词占比方式对无意义答案进行过滤
  • 答案质量排序:除了对低质量问题过滤外,还对有多个答案的情况进行相应的排序,将质量更好的答案排在前面。基于Pairwise方式的排序模型其训练目标不仅要将候选答案分类到正确的类别,更关注于将Top K的结果排在前面,这与业务目标一致,因此使用基于Pairwise方式的RoBERTa模型对答案质量进行排序,如图2所示。在训练阶段,给定一个问题Q和两个候选答案A1和A2,组成三元组 (Q,A1,A2) 输入到模型中,其中第一个候选答案A1比第二个候选答案A2质量要好。在模型训练时,这个三元组被拆分为两个问答对 (Q,A1) 和 (Q,A2)。每个问答对 (Q,A) 通过[SEP]标识符分割,并在问题前加入[CLS],最终以[CLS] Q [SEP] A [SEP]的形式输入到Bert模型中,然后得到[CLS]的输出作为问答对的表示,经过一个全连接层和Softmax得到问答相似度值将两个候选答案的交叉熵损失和合页损失作为最终的损失函数。在预测阶段,将问答对输入到模型中得到文本相似度值,根据这个值对同一问题下的不同答案排序,从而选出Top答案

在这里插入图片描述

图2 答案质量排序模型

2.2、在线问题匹配

在线阶段解决的是将用户的问题与知识库知识进行匹配的问题。同时考虑文本相关性和语义相关性,将问题匹配分为召回和精排两步:

  • 第一步检索召回候选问题并进行粗排
  • 第二步根据语义相似度对候选答案进行精排,返回Top-K问题和对应答案

在任务中涉及到景点、酒店、商场等多场景,多领域知识适配任务突出。模型框架首先建模成Multi-Task架构,所有领域数据训练出一个共享参数,解决新领域与冷启动的问题,同时不同的领域,也会得到各自领域的参数,提升各自领域效果。除此之外,也发现只计算用户的Query和问答对里问题的相似度,是不太够的。答案往往也能帮助我们更好的去理解问题。图3中"还营业吗现在"的问题,语义上"正常营业吗?"比"关门了吗?"更相关,但从答案"肺炎期间闭园不营业"和"没去过"中很容易辨识出第一条答案更相关。因此建模时将答案也考虑进去,采用Multi-Field框架。最终我们的模型为Multi-Field Multi-Task RoBERTa模型,具体如图3所示

在这里插入图片描述

图3 语义相似度计算模型

3、总结

本笔记的目前只记录了美团发布的一篇文章中展示的构建CQA系统的技术路线,并且不是很详细,后续了解到具体洗衣机活其他路线时会进行补充。本笔记难免存在问题或错误,读者如果发现错误或者有疑问可留言交流学习。本笔记主要目的是总结现有的CQA系统搭建方法,方便后续学习和借鉴,如果内容涉及侵权,请联系本人,会及时删除。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值