REALM: Retrieval-Augmented Language Model Pre-Training 翻译

Jayne ·

更新时间:2024-09-20

· 726 次阅读

REALM: Retrieval-Augmented Language Model Pre-Training Abstract

语言模型预训练已经显示出可以捕获数量惊人的世界知识，这对于NLP任务(例如问题解答)至关重要。但是，此知识隐式存储在神经网络的参数中，需要更大的网络才能覆盖更多的事实。

为了以更模块化和可解释的方式捕获知识，我们使用潜在的知识检索器增强了语言模型的预训练，检索器使模型可以从预训练、微调和推理期间使用的大型语料库(如Wikipedia)中检索并使用文档。首次，我们展示了如何使用蒙版语言建模作为学习信号并通过考虑数百万个文档的检索步骤进行反向传播，从而以无监督的方式对这种知识检索器进行预训练。

我们通过微调开放域问答(Open-QA)的挑战性任务，证明了检索增强语言模型预训练(REALM)的有效性。我们在三个流行的Open-QA基准测试中与最先进(SOTA)的显式和隐式知识存储模型进行了比较，发现我们在性能上优于所有以前的方法(绝对精度为4-16％)，同时还提供了定性优势，例如可解释性和模块化。

1. Introduction

语言模型预训练的最新进展表明，诸如BERT(Devlin等人，2018)，RoBERTa(Liu等人，2019)和 T5(Raffel等人，2019)之类的模型存储了惊人数量的世界知识，从他们接受过培训的庞大文本语料库中获取(Petroniet等人，2019)。例如，BERT能够正确预测以下句子中的缺失词：“The __ is the currency of the United Kingdom” (answer: “pound”)。

在这些语言模型中，所学的世界知识隐式存储在神经网络的参数中。这使得很难确定哪些知识存储在网络中以及存储在何处。此外，存储空间受到网络规模的限制-为了获取更多的世界知识，人们必须训练越来越大的网络，而这可能是缓慢且昂贵的。

为了以一种更具解释性和模块化的方式捕获知识，我们提出了一个新颖的框架，即检索增强语言模型(REALM)预训练，该框架通过学习过的文本知识检索器来增强语言模型的预训练算法。与在其参数中存储知识的模型相反，此方法通过要求模型决定在推理期间要检索和使用的知识来显式地揭示世界知识的作用。在做出每个预测之前，语言模型使用检索器从大型语料库(例如Wikipedia)中检索文档，然后查看这些文档以帮助其预测。端到端学习此模型需要通过考虑整个文本知识语料库的检索步骤来进行反向传播，如图1所示。

REALM的主要直觉是使用来自无监督文本的基于性能的信号来训练检索器：提高语言模型的困惑性的检索是有帮助的，应予以奖励，而无用信息的检索应受到惩罚。例如，在图1中，如果模型需要填补“the __ at the top of the pyramid”中的空白，则应奖励检索者选择包含“The pyramidion on top allows for less material higher up the pyramid”的文档。通过将“retrieve-then-predict”方法建模为潜在的可变语言模型并优化边际可能性，可以实现此行为。

在预训练期间合并大型神经检索模块构成了重大的计算挑战，因为检索器必须为每个预训练步骤考虑数百万个候选文档，并且我们必须通过其决策进行反向传播。为了解决这个问题，我们对检索器进行了结构设计，以便可以缓存和异步更新为每个文档执行的计算，并且可以将最佳文档的选择公式化为最大内部产品搜索(MIPS)。

许多先前的工作已经证明了向神经网络添加离散检索步骤的好处(Miller等人，2016; Chen等人，2017)，但是没有将该框架应用于语言模型的预训练并且没有使用非学习的检索器来处理大型文档集。在语言建模文献中，kNN语言模型(Khandelwal等，2019)(kNNLM)检索了类似的LM示例以提高记忆力。但是，kNN-LM并未针对下游任务进行微调，这可能是因为不清楚如何适应检索机制：kNN只能使用为目标任务标记后的样例-在微调过程中，这排除了LM示例，其中包含所需的世界知识。相比之下，REALM的检索器旨在转移到其他任务，而检索只是文本，而不是带标签的样例。

我们通过微调经过REALM预训练的模型来评估我们的方法，该模型针对自然语言处理中知识密集度最高的任务之一的开放域问答(Open-QA)任务。我们评估了三个流行的Open-QA基准(NATURALQUESTIONS-OPEN，WEBQUESTIONS 和 CURATEDTREC)，并与最新的Open-QA模型进行了比较，其中包括两个巨大的隐式存储知识的模型(例如T5) 作为以前的方法，也使用知识检索器访问外部知识，但以更启发式的方式实施检索(Lee等人，2019; Min等人，2019a; Asai等人，2019)。 REALM在所有三个基准上均取得了最新的最优结果，绝对精度大大优于所有以前的系统4-16％。我们还展示了REALM的质量优势，包括可解释性和模块化。

2. Background

Language model pre-training 预训练语言模型预训练的目的是学习语言的有用表示形式，通常是从未标记的文本语料库中学习。然后可以对最终感兴趣的下游任务(在我们的案例中为OpenQA)进行进一步的训练(微调)，以得到最终的训练后的模型，这通常比从头开始进行训练具有更好的概括性(Dai & Le, 2015; Radford et al., 2019)。

我们专注于BERT推广的预训练的蒙版语言模型(MLM)变体(Devlin et al.，2018)。
在其基本形式中，对MLM进行了训练，以预测输入文本段落中缺少的标记。给定一个未标记的训练前语料X(例如Wikipedia文本)，可以通过随机蒙版采样文本片段中的标记来生成训练示例(x; y)(例如x =“ The [MASK] is the currency [ MASK] in the UK”； y =(“pound”,“ of ”))。该模型使用其对掩码输入x的表示来预测应该在每个掩码中使用的mask。好的MLM必须学会编码语法和语义信息(例如，预测“ of ”)以及一些世界知识(例如，预测“ pound”)。

Open-domain question answering (Open-QA) 为了衡量模型整合世界知识的能力，我们需要一项对世界知识至关重要的下游任务。在自然语言处理中，知识最密集的任务之一可能是开放域问答(Open-QA)：给定问题x，例如“What is the currency of the UK?”，模型必须输出正确的答案字符串 y,“pound”。 Open-QA的“开放”部分是指该模型未收到已知包含答案的预先识别的文档，这与SQuAD等传统的阅读理解(RC)任务不同(Rajpurkar等，2016 ; 2018)。RC模型只包含一个文档，但是Open-QA模型必须保留数百万个文档中的知识，因为一个问题可能跟任何一个文档有关。

我们专注于利用文本知识语料库Z作为知识源的Open-QA系统。这些系统中的许多都采用基于检索的方法：给定问题x，从语料库Z中检索可能相关的文档z，然后从文档中提取答案y(Brill等，2002; Chen等，2017; Lee等人，2019)。我们的方法REALM受到此范例的启发，并将其扩展到语言模型预训练。或者，最近的一些工作提出了基于世代的系统，该系统在x上应用Seq2Seq模型以直接生成y的每个标记(Lewis等人，2019; Raffel等人，2019)。在我们的实验中，我们将与两种范例中的最新系统进行比较。

3. Approach

我们首先将REALM的预训练和微调任务形式化为3.1中的“retrieve-then-predict”生成过程。然后在3.2中，我们描述了该过程中每个组件的模型架构。在第3.3节中，我们将展示如何通过最大化REALM生成过程的可能性来实施REALM预训练和微调。在过程中，我们解决了重要的计算难题，解释了训练为何有效，并讨论了注入有用归纳偏差的策略。总体框架如图2所示。

3.1. REALM’s generative process

对于预训练和微调，REALM接受一些输入x并学习可能输出y上的分布p(y | x)。对于预训练，任务是蒙版语言建模：x是来自训练前语料X的句子，其中某些标记被掩盖，并且模型必须预测那些缺少的标记y的值。为了进行微调，任务是Open-QA：x是一个问题，y是答案。

REALM将p(y j x)分解为两个步骤：”retrieve then predict”。给定输入x，我们首先从知识语料库Z中检索可能有用的文档z。我们将其建模为分布p(z | x)的样本。然后，我们以检索到的z和原始输入x为条件，以生成输出y-建模为p(y | z,x)。为了获得生成y的总体可能性，我们将z视为一个潜在变量，并对所有可能的文档z进行边际化，从而得出:

3.2. Model architecture

现在，我们描述两个关键组件：神经知识检索器(模型p(z | x))和知识增强编码器(模型p(y | z,x))。

Knowledge Retriever 检索器是使用密集的内积模型定义的：
在这里插入图片描述
其中Embed_input和Embed_doc是嵌入函数，分别将x和z映射到d维向量。x和z之间的相关性分数f(x, z)定义为向量嵌入的内积。检索分布是所有相关分数的softmax。

我们使用BERT样式的Transformers实现嵌入功能(Devlin et al., 2018)。按照标准惯例，我们通过应用词片标记化，用[SEP]标记分隔它们，以[CLS]标记添加前缀以及附加最后的[SEP]标记来构成文本范围。
在这里插入图片描述
如Devlin(2018)那样，我们将其传递给Transformer，该转换器为每个token生成一个向量，包括与[CLS]对应的向量，该向量用作序列的“池”表示(表示为BERTCLS)。最后，我们加入线性层以减小向量的维数，表示为投影矩阵W：
在这里插入图片描述
其中z_title是文档的标题，而z_body是其正文。我们让Ɵ表示与检索器关联的所有参数，包括Transformer和投影矩阵。

Knowledge-Augmented Encoder 给定输入x和检索到的文档z，知识增强型编码器定义p(y | z , x)。我们将x和z合并为一个序列，然后将其输入到Transformer中(与检索器中使用的序列不同)。这使我们能够在预测y之前在x和z之间执行丰富的交叉注意力。具体示例请参见图1。

在此阶段，用于预训练和微调的架构略有不同。对于蒙版语言模型预训练任务，我们必须预测x中每个[MASK] token的原始值。为此，我们使用与Devlin等人相同的蒙版语言语言(MLM)损失(2018)：

在这里插入图片描述
其中BERT_MASK(j)表示与第j个蒙版token相对应的Transformer输出矢量，J_x是x中[MASK] token的总数，w_j是针对token y_j 嵌入的学习词向量。

在这里插入图片描述
图2. REALM的总体框架。左：无监督的预训练。知识检索器和知识增强型编码器共同接受了无监督语言建模任务的预训练。右：有监督的微调。在对检索器和编码器的参数进行预训练之后，然后使用受监督的样例对主要关注的任务进行微调。

对于Open-QA微调，我们希望生成答案字符串y。在先前的阅读理解工作(Rajpurkar等人，2016; Seo等人，2016; Lee等人，2016; Clark＆Gardner，2017)之后，我们将假定答案y可以作为在某些文档z中tokens的连续序列被找到。令S(z,y)为与z中的y匹配的跨度集合。然后我们可以将p(y | z, x)定义为：

其中BERT_START和BERT_END分别表示对应于spans的开始和结束标记的Transformer输出向量，而MLP表示前馈神经网络。我们将表示与知识增强型编码器关联的所有参数。

3.3. Training

对于预训练和微调，我们通过最大化正确输出y的对数似然log p(y | x)进行训练。由于知识检索器和知识增强型编码器都是可微神经网络，因此我们可以针对模型参数计算log p(y | x)(在等式1中定义)的梯度，并使用随机梯度下降进行优化。

关键的计算挑战是概率涉及知识语料库Z中所有文档z的求和。通过近似地求和在p(z | x)下概率最高的前k个文档，可以得出近似值-如果大多数文档的概率接近零，这是合理的。

即使采用这种近似方法，我们仍然需要一种有效的方法来查找前k个文档。请注意，在p(z | x)下的文档排序与相关分数f(x, z)下的排序相同，这是一个内积。因此，我们可以使用最大内积搜索(MIPS)算法来查找大约前k个文档，其使用时间和存储空间与文档数量成线性线性关系(Ram & Gray, 2012; Shrivastava & Li, 2014; Shen et al., 2015)。

要使用MIPS，我们必须为每个z预先计算Embed_doc(z)，并在这些嵌入上构造有效的搜索索引。但是，如果稍后更新Embed_doc的参数，则此数据结构将不再与p(z | x)保持一致。因此，在每次Ɵ梯度更新后，搜索索引都会“过时”。

我们的解决方案是通过每隔几百个训练步骤异步地重新嵌入和重新索引所有文档来“刷新”索引。刷新之间的MIPS索引有些陈旧，但是请注意，它仅用于选择前k个文档。我们在检索到前k个文档后，使用fresh来重新计算p(z | x)及其梯度。在第4.5节中，我们以经验证明，只要刷新以足够频繁的频率进行，此过程就可以实现稳定的优化。

Implementing asynchronous MIPS refreshes 我们通过并行运行两个作业来异步刷新MIPS索引：一个是主训练程序作业，该作业对参数执行渐变更新；另一个是辅助索引生成器作业，该作业嵌入和索引文档。如图3所示，训练器向索引构建器发送其参数的快照。然后，训练器继续训练，而索引构建器使用在后台构造新索引。索引构建器完成后，它将新索引发送回训练器，然后重复该过程。
在这里插入图片描述
尽管异步刷新可用于预训练和微调，但在我们的实验中，我们仅将其用于预训练。为了进行微调，为简单起见，我们只构建了一次MIPS索引(使用预先训练的)，并且不更新Embed_doc。请注意，我们仍然对Embed_input进行微调，因此检索功能仍从查询端进行更新。

What does the retriever learn? 由于REALM的知识检索是潜在的，因此训练目标如何激励有意义的检索尚不明显。在这里，我们展示了它如何奖励提高预测准确性的检索。

3.4.向预训练中注入归纳偏好 (Injecting inductive biases into pre-training)

在开发REALM的过程中，我们发现了几种其他策略，这些策略进一步指导模型朝着有意义的方向发展，如下所述。

显着跨度遮罩(Salient span masking) 在REALM预训练期间，我们希望关注示例x，这些示例x需要世界知识来预测被屏蔽的token。如第2节所述，某些MLM跨度仅需要局部上下文。为了专注于需要世界知识的问题，我们遮住了诸如“United Kingdom”或“July 1969”这样的显着跨度。我们使用在CoNLL-2003数据(Sang＆De Meulder，2003)上训练的基于BERT的标记器来识别命名实体，并使用正则表达式来识别日期。我们选择并遮住了句子中用于蒙版语言建模的这些显着跨度之一。在4.5节中显示，这明显优于其他蒙版策略。

空文档(Null document) 即使使用显着跨度掩码，也并非所有掩码token都需要世界知识来预测。我们通过添加一个空的空文档来对此建模。到检索到的前k个文档中，当不需要检索时，可以将适当的功劳分配给一致的接收器。

禁止不重要的检索(Prohibiting trivial retrievals) 如果预训练主体X和知识主体Z相同，则存在不重要的检索候选z：如果掩盖的句子x来自文档z，则知识增强编码器可以通过以下方式简单地预测y：查看z中x的未遮盖版本。这导致p(z | x)的正斜率较大。如果这种情况发生得太频繁，知识检索器最终会学习在x和z之间寻找确切的字符串匹配项，而这不会捕获其他形式的相关性。因此，我们在预训练期间排除了这种不重要的候选。

初始化(Initialization) 在训练开始时，如果检索者对Embed_input(x)和Embed_doc(z)的嵌入不好，则检索到的文档z可能与x无关。这使知识增强编码器学习忽略检索到的文档。一旦发生这种情况，知识检索器就不会获得有意义的梯度，也无法改善，从而形成恶性循环。为了避免出现这种冷启动问题，我们使用称为反结束任务(ICT)的简单训练目标来热启动Embed_input和Embed_doc，在该训练目标中，给定一个句子，对该模型进行训练以检索该句子所来自的文档。我们依据Lee et al. (2019)的细节。对于知识增强型编码器，我们通过BERT预训练(特别是uncased BERT-base model(12层，768个隐藏单元，12个注意力头))热启动它。

4. Experiments

现在，我们评估使用在Open-QA任务上的方法。在本节中，我们将详细描述所使用的基准以及我们进行经验比较的不同方法。

4.1. Open-QA Benchmarks

现在已为Open-QA提出了许多基准。在这项工作中，我们专注于问题作者不知道答案的数据集。这就产生了反映更真实的信息搜索的需求，同时也避免了问题是制定在考虑一个特定的答案可能出现的情况。更深的理由是Lee et al. (2019)提出的。在所有情况下，遵循先前的Open-QA工作(Chen et al., 2017)，通过与任何参考答案的精确匹配来评估预测答案。

NaturalQuestions-Open NaturalQuestions数据集(Kwiatkowski等，2019)由自然的Google查询及其答案组成。每个答案还带有“答案类型”:遵循 Lee et al. (2019)的设置。我们仅保留归类为“简短回答类型”的问题，最多包含五个token数据集还提供了建议的维基百科文档以供检索，像我们比较的所有模型一样，我们也不会在我们的模型中提供。

WebQuestions WebQuestions数据集(Berant et al., 2013)是使用一个种子问题并将该集合扩展为相关问题而从Google Suggest API收集的。我们遵循Chen et al. (2017)定义的设置。

CuratedTrec CuratedTrec数据集是从在MSNSearch和AskJeeves之类的网站上发布的真实用户查询中提取的问题-答案对的集合。为了说明多个正确答案或不同的拼写变化，此数据集中的答案被定义为与所有正确答案匹配的正则表达式。目前尚不清楚如何在这种监督下训练基于世代的模型，因此我们不在此数据集上对其进行评估。

4.2. Approaches compared

基于检索的Open-QA 大多数现有的Open-QA系统通过首先从知识语料库中检索潜在相关的文档，然后使用阅读理解系统从文档中提取答案来回答输入问题。在这种范例中，知识被明确地存储在语料库中。我们希望比较实现检索的不同方法。

许多方法使用非学习的启发式检索，例如稀疏的词袋匹配(Robertson et al., 2009)或实体在问题上链接以选择一小套相关文档(e.g., 20)。然后通常使用学习的模型对这些文档进行排名，但是覆盖范围可能会受到初始启发式检索步骤的限制。表1中的DrQA (Chen et al., 2017), HardEM (Min et al., 2019a), GraphRetriever (Min et al., 2019b), and PathRetriever (Asai et al., 2019)等方法都属于此类。

一些最近的方法已经提出使用MIPS索引来实现可学习的检索。ORQA (Lee et al., 2019)使用类似于REALM的潜在变量模型来规划Open-QA，并通过最大化边际概率进行训练。但是，REALM添加了新颖的语言模型预训练步骤，并将其反向传播到MIPS索引中，而不是使用固定索引。在表1中，我们直接比较两者。同样重要的是要注意，REALM预训练和ORQA的检索器都是使用第3.4节中描述的“反结束任务”初始化的。

基于世代的Open-QA(Generation-based Open-QA) 一种新兴的Open-QA替代方法是将其建模为序列预测任务：简单地对问题进行编码，然后根据编码逐个token对答案进行解码。虽然最初尚不清楚可以向模型中注入多少知识，但GPT-2 (Radford et al., 2019)暗示了直接产生答案而无需通过序列间使用任何给定上下文的可能性。但是，由于缺乏微调，它们的性能没有不佳。正交而言(Orthogonally)，T5 (Raffel et al., 2019)表明，直接生成答案而无需从给定上下文中进行显式提取是可行的方法，但他们仅在提供上下文文档的阅读理解任务上进行了实验。

对于最具竞争力和可比性的generation-based baseline，我们将其与对Open-QA的T5进行了微调(Roberts et al., 2020)的工作进行了比较。我们与基础、大型甚至更大的110亿参数进行了比较来衡量模型大小的影响。

4.3. Implementation Details

微调(Fine-tuning) 我们重用了Lee et al.(2019)的所有超参数，以便进行直接比较。我们的知识语料库来自2018年12月20日英语维基百科的快照。文档被分成多达288个BERT词块，从而产生了超过1300万个检索候选对象。在微调推论期间，我们考虑前5名候选文档，并且整个模型可以在具有12GB GPU的单台计算机上运行。

预训练(Pre-training) 我们使用BERT的默认优化程序对64个Google Cloud TPU进行了20万步的预训练，批处理大小为512，学习速率为3e-5。MIPS索引的文档嵌入步骤在16个TPU上并行执行。对于每个示例，我们检索并边缘化8个候选文档，包括空文档。

我们对预训练语料库X的两种选择进行了实验：(1)Wikipedia，它与知识语料库Z相同；以及(2)CC-News，我们复制了Liu et al. (2019)提出的英语新闻语料库。

在这里插入图片描述

4.4. Main results

表1显示了三个Open-QA数据集上不同方法的准确性。 REALM在很大程度上优于以前的所有方法。表1还显示了每个模型的参数数量。

如Roberts et al. (2020)的并发工作所报道。基于T5的开放式Open-QA系统功能强大，其最大的T5-11B模型优于以前的最佳Open-QA系统。增大T5的尺寸会带来持续的改进，但是会带来相当的计算成本(从Base到11B，模型要大50倍，并且精度大约提高5个点)。相反，REALM的性能要比最大的T5-11B模型小30倍。同样重要的是要注意，T5在其预训练期间会从SQuAD访问其他阅读理解数据(超过100,000个示例)。访问此类数据也可以使REALM受益，但是在我们的实验中并未使用。

在所有系统中，与REALM的最直接比较是ORQA(Lee et al., 2019)，其中微调设置，超参数和训练数据相同。与ORQA相比，REALM的改进完全归功于更好的预训练方法。结果还表明，我们的预训练方法可以应用于(1)单语料库设置(X = Wikipedia，Z = Wikipedia)，或(2)单独语料库设置(X = CC-News，Z = Wikipedia)。

与通常从20到80个文档中进行检索的其他基于检索的系统(Asai et al., 2019; Min et al., 2019a;b)相比，我们的系统在仅检索5个文档的情况下获得了总体最佳性能。

4.5. Analysis

在表2中，我们显示了消除REALM的关键组件后，NaturalQuestions-Open的结果。除了端到端结果外，我们还报告了在应用任何微调之前，黄金答案出现在前5个检索结果中的频率。后一种度量标准更有效地隔离了在预训练过程中改进检索器的作用。

编码器或检索器(Encoder or Retriever) 我们的首要目标是确定REALM预训练是否可以改进检索器或编码器，或两者都可以。为此，我们可以在REALM预训练之前将检索器或编码器的参数重置为其基线状态，并将其输入进行微调。重置检索器和编码器会将系统降低到我们的主要基准ORQA。我们发现，编码器和检索器都分别受益于REALM训练，但是最佳结果需要两个组件协同工作。

掩蔽方案我们将显着跨度掩蔽方案(第3.4节)与(1)BERT (Devlin et al., 2018)中引入的随机令牌掩蔽和(2)SpanBERT提出的随机跨度掩蔽SpanBERT (Joshi et al., 2019)进行了比较。尽管在以前使用标准BERT训练进行的工作中尚未显示出这样的显着跨度掩盖效果有效(Joshi et al., 2019)，但这对于REALM至关重要。直观上，潜在变量学习在很大程度上依赖于检索的效用，因此对一致的学习信号更加敏感。

MIPS索引刷新率在预训练期间，我们运行并行过程以重新嵌入语料库文档并重建MIPS索引。这导致大约每500个训练步骤刷新一次索引。为了证明频繁刷新索引的重要性，我们将其与使用较慢的刷新率进行了比较。表2中的结果表明，过时的索引可能会损害模型训练，并且进一步降低这种过时状态可能会提供更好的优化。

检索到的文档示例表3显示了REALM屏蔽语言模型预测的示例。在此示例中，“ Fermat”是正确的单词，与BERT模型(a)相比，REALM©为该单词提供了很高的概率。由于REALM设法检索一些具有相关事实的文档(第(b)行)，因此正确答案的边缘化概率大大增加。这表明REALM能够检索文档以填充被屏蔽的单词，即使仅使用无监督的文本对其进行了训练也是如此。
在这里插入图片描述

5. Discussion and Related Work

我们之前讨论了Open-QA的相关方法。在这里，我们提供了几种查看REALM的替代方法，这些方法将其与Open-QA以外的更广泛的想法相关联：

以语料库为上下文的语言建模在进行预测时，语言表示模型已经合并了范围越来越大的上下文。这种进展的示例包括以周围单词为条件的模型(Mikolov et al., 2013a;b)，句子(Kiros et al., 2015; Peters et al., 2018)和段落(Radford et al., 2018; Devlin et al., 2018)。我们可以将REALM视为上述工作的概括到下一个范围：整个文本语料库。

通过学习的检索进行检索和编辑为了更好地解释输入文本中的差异并实现可控的生成，Guu et al. (2018)提出了一种具有检索和编辑框架的语言模型(Hashimoto et al., 2018)，该模型以具有高词法重叠的文本为条件。REALM具有类似的方法，除了模型自己学习哪些文本对于减少困惑最有用。通过共同学习检索器，REALM具有依赖词法重叠之外的信息的能力。

可扩展的扎根神经存储器文档索引可以看作是存储器，其中关键是文档嵌入。从这种观点来看，我们的工作与诸如产品密钥存储(Lample et al., 2019)这样的工作有着共同的动机，产品密钥存储使存储网络中的亚线性存储访问成为可能(Weston et al., 2014; Graves et al., 2014; Sukhbaatar et al., 2015)，允许将这些可扩展的内存层集成到大型语言模型中。一个主要区别是我们的存储器是扎根的-每个存储器都与文档关联，而不是未命名的值向量。这种可解释性的水平对于像Open-QA这样的应用程序至关重要，在该应用程序中，用户可能需要出处才能获得可靠的预测答案。

无监督语料排列在带有注意力机制的序列到序列模型中(Bahdanau et al., 2014)，文本是在潜在选择相关标记的情况下生成的。这导致目标token和源token之间的一组以模型为中心的无监督对齐方式。类似地，REALM还生成带有潜在选择相关文档的文本。我们方法的副产品是，在预训练语料库X和知识语料库Z中提供了一组以模型为中心的无监督对齐方式。

6. Future Work

本文介绍的工作是类似REALM的方法系列的最小实例化，在该方法中，对表示进行了预训练，可以在推理过程中实时地对大量知识进行推理。我们对将这项工作推广到(1)结构化知识尤为乐观，这将导致Peters et al. (2019)的推广。我们还将学习决定哪些实体具有信息性的决定；(2)多语言环境，例如，以高资源语言获取知识来更好地以低资源语言表示文本，以及(3)多模式设置，例如检索可以提供文本中很少见到的知识的图像或视频。

作者：Toyhom

model pre realm

1024 个赞