问答系统技术--IRQA

1、概念与特点

IRQA与DQA的区别比较大的是DQA是靠自然样本抽取,而IRQA是依靠已有的一些QA内容,如典型的综合类社区问答内容,以UGC为主,且各大社区体量非常大,包括百度知道、搜狗问问、爱问、悟空等;另外一类是近些年各大垂直类的站点崛起的比较快,有很多PGC专家生产的数据也越来越多且质量很高。

IRQA从概念上与FAQ,如果直接用网络上的QA数据构建FAQ库会存在很大问题,因为此类数据层次不齐,存在答非所问、无时效性、结构性杂乱、升至反社会、反人类等问题需要进一步筛选和处理

2、QQ浏览器智能问答中的系统方案

此方案出自此文章,搭建IRQA系统需要先构造离线系统,在线系统基于离线系统提供的FAQ数据为用户提供答案,整体的结构如图1所示
在这里插入图片描述

图1 IRQA系统

2.1、系统组成

构建完整的IRQA系统主要分为离线和在线两部分,离线主要是构建FAQ数据,训练相似性模型等,在线主要是通过将输入的问句与离线构造的问句进行倒排索引、召回计算相似度,最后获得对应的答案

离线系统:

  • 数据选择:包括社区UGC数据、垂直领域的爬取数据、外部PGC合作数据、腾讯内部垂直领域数据等;同时也包括图文、视频、音频等多种形态的内容;共计亿级别的原始FAQ库
  • 质量管控:通过插件化的质量管理模块,共计40+的插件,如:黄反、死链、答非所问、时效性过滤、口语化识别、结构识别、结构清洗等以及一些规则类的插件;经过一整套的质量管控流程之后,进入到优质FAQ库,流入线上KV库、IR库、EM库做多路召回

在线系统:

  • 召回:通过对FAQ库进行正排+倒排+语义向量多路召回
  • 匹配:通过语义模型计算相关性打分
  • 排序:通过相关性分数、时间因子、数据来源置信度等信号进行综合排序

2.2、相关性计算

语义相关模型最开始是手工特征+机器学习模型,后来逐渐演进为表示型模型、交互型模型,再到最新的预训练模型,如图2所示
在这里插入图片描述

图2 语义相关性模型
各模型详情:
  • 手工特征+XGB:最早版本基于XGB字面量的特征进行匹配,33维的手工特征加上词嵌入embedding的向量特征(400维),喂入XGB模型;效果在保准确的情况下会丢很多召回,且对Query的文字表达非常敏感,表达稍微变化一下就无法解决
  • 交互型模型:通过word和char双维度的输入解决oov问题;通过BiLSTM进行编码;通过BiMPM这种多维度attention进行信息交互;通过类似ESIM的思想对两个最终句向量做多种运算后融合,进行最终特征层面的增强;最后通过MLP取得最终score;相对XGB取得了很大的提升,但是在高准情况下召回仍然不足
  • 问答领域的短Query虽然属于搜索子集,但是特性比较明显,做领域预训练效果明显,最后的模型选择用ELECTRA加上领域的预训练;此外配合上一些训练过程的优化、参数对抗等取得了当前最优效果; 这里对抗不只是反梯度的参数对抗,还有一些Query文本上的对抗,也能提升当前模型的拟合能力和打分的稳定性,具体细节如图3所示

在这里插入图片描述

图3 预训练模型

2.3、大模型加速

搜索每天都会面临近十亿级别的流量,QPS也是万级别,面临庞大的搜索体量压力,在现役预训练模型的基础上,要对模型进行加速,为此做了一个二阶段的蒸馏加速,详情见图4

  • 第一阶段通过TinyBert层次化蒸馏的方法降低模型层数和参数两,降到两层之后再通过FastBert早出策略进行二阶段加速;发现很多简单的Query可以在一层的时候就早出出去,并且效果折损很小
  • 整体用ELECTRA + TinyBERT + FastBERT后效率可以在原ELECTRA基础上提升23倍, 效果折损可以控制在一个点以内
    在这里插入图片描述
图4 大模型加速

除上面介绍的相关性外,如质量控制、意图准入、时效性识别等在任务目标、数据处理上不一样,但在模型选型优化角度上是通用的,包括预训练模型的使用

3、总结

本笔记的目前只记录了发布的一篇文章中展示的构建IRQA系统的技术路线,后续了解到其他路线时也进行补充。本笔记难免存在问题或错误,读者如果发现错误或者有疑问可留言交流学习。本笔记主要目的是总结现有的IRQA系统搭建方法,方便后续学习和借鉴,如果内容涉及侵权,请联系本人,会及时删除

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值