问答系统技术--IRQA

zzfive

于 2022-07-30 21:33:39 发布

阅读量797

点赞数

分类专栏：问答技术路线文章标签： python 人工智能 java

本文链接：https://blog.csdn.net/zzfive/article/details/125993397

版权

5 篇文章 0 订阅

订阅专栏

1、概念与特点

IRQA与DQA的区别比较大的是DQA是靠自然样本抽取，而IRQA是依靠已有的一些QA内容，如典型的综合类社区问答内容，以UGC为主，且各大社区体量非常大，包括百度知道、搜狗问问、爱问、悟空等；另外一类是近些年各大垂直类的站点崛起的比较快，有很多PGC专家生产的数据也越来越多且质量很高。

IRQA从概念上与FAQ，如果直接用网络上的QA数据构建FAQ库会存在很大问题，因为此类数据层次不齐，存在答非所问、无时效性、结构性杂乱、升至反社会、反人类等问题需要进一步筛选和处理

此方案出自此文章，搭建IRQA系统需要先构造离线系统，在线系统基于离线系统提供的FAQ数据为用户提供答案，整体的结构如图1所示
在这里插入图片描述

图1 IRQA系统

构建完整的IRQA系统主要分为离线和在线两部分，离线主要是构建FAQ数据，训练相似性模型等，在线主要是通过将输入的问句与离线构造的问句进行倒排索引、召回计算相似度，最后获得对应的答案

离线系统：

数据选择：包括社区UGC数据、垂直领域的爬取数据、外部PGC合作数据、腾讯内部垂直领域数据等；同时也包括图文、视频、音频等多种形态的内容；共计亿级别的原始FAQ库
质量管控：通过插件化的质量管理模块，共计40+的插件，如：黄反、死链、答非所问、时效性过滤、口语化识别、结构识别、结构清洗等以及一些规则类的插件；经过一整套的质量管控流程之后，进入到优质FAQ库，流入线上KV库、IR库、EM库做多路召回

在线系统：

语义相关模型最开始是手工特征+机器学习模型，后来逐渐演进为表示型模型、交互型模型，再到最新的预训练模型，如图2所示
在这里插入图片描述

图2 语义相关性模型各模型详情：

手工特征+XGB：最早版本基于XGB字面量的特征进行匹配，33维的手工特征加上词嵌入embedding的向量特征(400维)，喂入XGB模型；效果在保准确的情况下会丢很多召回，且对Query的文字表达非常敏感，表达稍微变化一下就无法解决
交互型模型：通过word和char双维度的输入解决oov问题；通过BiLSTM进行编码；通过BiMPM这种多维度attention进行信息交互；通过类似ESIM的思想对两个最终句向量做多种运算后融合，进行最终特征层面的增强；最后通过MLP取得最终score；相对XGB取得了很大的提升，但是在高准情况下召回仍然不足
问答领域的短Query虽然属于搜索子集，但是特性比较明显，做领域预训练效果明显，最后的模型选择用ELECTRA加上领域的预训练；此外配合上一些训练过程的优化、参数对抗等取得了当前最优效果；这里对抗不只是反梯度的参数对抗，还有一些Query文本上的对抗，也能提升当前模型的拟合能力和打分的稳定性，具体细节如图3所示

在这里插入图片描述

图3 预训练模型

搜索每天都会面临近十亿级别的流量，QPS也是万级别，面临庞大的搜索体量压力，在现役预训练模型的基础上，要对模型进行加速，为此做了一个二阶段的蒸馏加速，详情见图4

第一阶段通过TinyBert层次化蒸馏的方法降低模型层数和参数两，降到两层之后再通过FastBert早出策略进行二阶段加速；发现很多简单的Query可以在一层的时候就早出出去，并且效果折损很小
整体用ELECTRA + TinyBERT + FastBERT后效率可以在原ELECTRA基础上提升23倍，效果折损可以控制在一个点以内