能跟你聊DOTA的神经对话模型：Meena&DialoGPT

最新推荐文章于 2024-08-09 08:29:55 发布

远皓

最新推荐文章于 2024-08-09 08:29:55 发布

阅读量1k

点赞数 3

文章标签：自然语言处理神经网络深度学习

本文链接：https://blog.csdn.net/wyhbb163/article/details/105748508

版权

本文介绍了基于Transformer的神经对话模型Meena和DialoGPT，它们直接从对话历史生成回复，解决了文本生成问题。Meena使用了更大规模的模型和数据，其SSA评价指标接近人类水平，而DialoGPT通过预训练模型迁移取得良好效果。两模型都在降低困惑度和提高对话质量方面取得了进展。

摘要由CSDN通过智能技术生成

提到对话机器人或者聊天机器人，国内的朋友可能先想到的是微软小冰或者苹果Siri。这两个机器人由于需要完成一些功能性的任务，都采用了模块化设计，虽然神经网络在其中起到了重要作用，但输出结果并不是从输入语句“端到端”产生的。而且用过的朋友都知道，他们的聊天能力并不是很令人满意。

今天介绍的神经对话模型则是一步到位，将对话历史作为输入，让模型直接生成下一轮的回复。学术一点说，神经对话模型本质上是在解决文本生成的问题。相比于很多聊天机器人（包括我们的晴天一号）目前使用的语料库+检索算法的架构，生成式（包括改写等等）算法能给对话带来更多的可能性和趣味性。最近，得益于大规模预训练语言模型，文本生成任务得到了长足的发展。本文的主角就代表了目前神经对话模型的最高水平，分别是19年十一月由微软发布的DialoGPT和20年一月谷歌发布的Meena。

在开始正文之前，先展示一段机器人生成的对话，让大家对技术现状有个直观感受。

模型

两篇论文都没有在模型方面有什么重大的创新，他们使用的都是如下图所示基于Transformer的seq2seq模型。这里大致介绍一下所谓seq2seq模型的工作原理。每生成一个单词的过程如下：将对话的历史信息输入进编码器（左下角inputs），模型已经生成的当前轮结果输入解码器（右下角outputs，没错，outputs是也用来input的~），然后模型将会综合两者信息输出它预测的下一个词（上方output）。而生成一句完整的回复只需要将刚才新生成的词拼接到当前轮已有结果的后面（图中shifted right的含义），重复上述过程直到模型输出句子结束符。