REALM: Retrieval-Augmented Language Model Pre Training 解读

最新推荐文章于 2024-03-31 22:04:03 发布

远皓

最新推荐文章于 2024-03-31 22:04:03 发布

阅读量1k

点赞数 1

文章标签：自然语言处理深度学习机器学习人工智能

本文链接：https://blog.csdn.net/wyhbb163/article/details/105532689

版权

本文介绍了REALM，一种结合检索模块的知识增强语言模型预训练方法。REALM通过预训练任务和QA任务，训练一个独立的知识抽取器，以决定推理时使用哪些知识。模型在开放领域问答任务上表现出色，特别是在仅使用少量检索文档的情况下，优于传统方法和类似方法。预训练和额外策略的使用对提升性能至关重要。

摘要由CSDN通过智能技术生成

知识就是力量

培根

背景

去年可以说是语言模型快速发展的一年，BERT、XLNET、Albert等等模型不断刷新各个NLP榜单。在NLP榜单中比较引人注目的应该属于阅读理解型的任务，例如SQuAD等等。以SQuAD为例，模型需要阅读一段给定的文本，然后回答几个问题，问题如果存在答案，答案一定可以在文章中找到。所以说虽然叫阅读理解，但其实和序列标注有点相像，是在给定序列中标出答案段。而这篇论文针对的问题叫开放领域问答（Open-domain QA），对于一个问题Q，模型需要从包含大量文档的知识库中找到答案，而不是像SQuAD数据集一样从一篇文章中寻找。

大部分的语言模型都采用一种称为masked language model，简称MLM的任务来训练，让模型学会类似完形填空一样的能力。通过在大规模语料上的训练，预训练语言模型如BERT实际上已经隐含了一些知识。例如输入一句“The is the currency of the United Kingdom”，BERT很有可能会填入单词"pound"。虽然他还是根据词的共现信息学习和推理的，但看上去就像具有所谓的知识一样。从去年开始就有越来越多的研究从单纯语言模型转换为带有知识嵌入的语言模型，例如清华和百度提出的两个同名模型ERNIE。

但上面说的这种隐含知识不好把握，也难以扩展。这篇论文则提出了一种更加模块化且可解释性更强的知识嵌入方法。总的来说，他的方法是训练一个独立的“语境知识抽取器”（contextual knowledge retriever&#x