真·量子速读:突破GPT-4理解50页文本限制，新研究扩展到百万token-脚本导航

> 自媒体 > （AI）人工智能 > 真·量子速读:突破GPT-4理解50页文本限制，新研究扩展到百万token

真·量子速读:突破GPT-4理解50页文本限制，新研究扩展到百万token

来源：机器之心Pro

2023-05-01 18:14:48

491

管理

机器之心报道

机器之心编辑部

能容纳 50 页文档的输入框不够用，那几千页呢？

一个多月前，OpenAI 的 GPT-4 问世。除了各种出色的直观演示外，它还实现了一个重要更新：可以处理的上下文 token 长度默认为 8k，但最长可达 32K（大约 50 页文本）。这意味着，在向 GPT-4 提问时，我们可以输入比之前长得多的文本。这使得 GPT-4 的应用场景大大扩展，能更好地处理长对话、长文本以及文件搜索和分析。

不过，这一记录很快就被打破了：来自谷歌研究院的 CoLT5 将模型可以处理的上下文 token 长度扩展到了 64k。

这样的突破并不容易，因为这些使用 Transformer 架构的模型都要面临一个问题：Transformer 处理长文档在计算上是非常昂贵的，因为注意力成本随输入长度呈二次增长，这使得大型模型越来越难以应用于更长的输入。

尽管如此，研究者依然在此方向上不断突破。前几天，一篇来自开源对话 AI 技术栈 DeepPavlov 等机构的研究表明：通过采用一种名为 Recurrent Memory Transformer（RMT）的架构，他们可以将 BERT 模型的有效上下文长度增加到 200 万个 token（按照 OpenAI 的计算方式，大约相当于 3200 页文本），同时保持了较高的记忆检索准确性（注：Recurrent Memory Transformer 是 Aydar Bulatov 等人在 NeurIPS 2022 的一篇论文中提出的方法）。新方法允许存储和处理局部和全局信息，并通过使用 recurrence 使信息在输入序列的各 segment 之间流动。

事实检测与记忆

事实检测通过将一个事实移动到输入中的随机位置来增加任务难度，如上图 4 中部所示。这需要模型首先将事实与不相关文本区分开来，把事实写入记忆中，然后用它回答位于末尾的问题。

利用记忆事实进行推理

记忆的另一个操作是使用记忆事实和当前上下文进行推理。为了评估这一功能，研究者使用了一个更复杂的任务，其中生成了两个事实并将它们放置在了输入序列之中，如上图 4 底部所示。在序列末尾提出的问题是以一种「必须使用任意事实来正确回答问题」的方式来描述。

实验结果

研究者使用 4 到 8 块英伟达 1080ti GPU 来训练和评估模型。对于更长的序列，他们则使用单个 40GB 的英伟达 A100 来加快评估速度。

课程学习

研究者观察到，使用训练计划能够显著提升解决方案的准确性和稳定性。最开始，RMT 在较短版本的任务上进行训练，并在训练收敛时通过添加另一个 segment 来增加任务长度。课程学习过程一直持续，直到达到所需的输入长度。

在实验中，研究者首先从适合单个 segment 的序列开始。实际 segment 的大小为 499，但由于 BERT 的 3 个特殊 token 和 10 个记忆占位符从模型输入中保留下来，大小为 512。他们注意到，在较短任务上训练后，RMT 更容易解决更长版本任务，这得益于它使用更少训练步收敛到完美的解决方案。

外推能力

RMT 对不同序列长度的泛化能力如何呢？为了回答这个问题，研究者评估了在不同数量 segment 上训练的模型，以解决更长的任务，具体如下图 5 所示。

他们观察到，模型往往在较短任务上表现更好，唯一的例外是单 segment 推理任务，一旦模型在更长序列上训练，则该任务变得很难解决。一个可能的解释是：由于任务大小超过了一个 segment，则模型不再「期待」第一个 segment 中的问题，导致质量下降。

有趣的是，RMT 泛化到更长序列的能力也随着训练 segment 的增加而出现。在 5 个或更多 segment 上训练后，RMT 可以近乎完美地泛化到两倍长的任务。

为了测试泛化的局限性，研究者将验证任务大小增至 4096 个 segment 或 2,043,904 个 token（如上图 1 所示），RMT 在如此长的序列上表现得出奇的好。检测和记忆任务最简单，推理任务最复杂。

记忆操作的注意力模式

在下图 6 中，通过检查特定 segment 上的 RMT 注意力，研究者观察到了记忆操作对应特定的注意力模式。此外 5.2 节中极长序列上的高外推性能证明了学得记忆操作的有效性，即使使用数千次也是如此。

更多技术与实验细节请参阅原论文。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

GPT-4的特点和优势，如何使用

2023-05-01 18:16

太可怕了！GPT-4可能已具有超越人类的智力，但人类还不知道

2023-05-01 18:13