没有RLHF，一样媲美GPT-4、Bard，Meta发布650亿参数语言模型LIMA-脚本导航

> 自媒体 > （AI）人工智能 > 没有RLHF，一样媲美GPT-4、Bard，Meta发布650亿参数语言模型LIMA

没有RLHF，一样媲美GPT-4、Bard，Meta发布650亿参数语言模型LIMA

来源：机器之心Pro

2023-05-27 17:21:32

538

管理

机器之心报道

机器之心编辑部

不需要 RLHF，LIMA 就能和 GPT-4、Bard、DaVinci003 相媲美，甚至更好。

作为当前 AI 领域的顶流，ChatGPT、GPT-4 等大模型在文本理解、生成、推理等方面展现出强大的能力，这离不开其背后的生成领域训练新范式 ——RLHF (Reinforcement Learning from Human Feedback) ，即以强化学习的方式依据人类反馈优化语言模型。

使用 RLHF 方法，大型语言模型可与人类偏好保持对齐，遵循人类意图，最小化无益、失真或偏见的输出。但 RLHF 方法依赖于大量的人工标注和评估，因此成本非常高昂。

最近，来自 Meta AI 等机构的研究者在一项研究中指出：在对齐方面，少即是多。

社区问答

研究者从三个社区问答网站收集数据，分别是 Stack Exchange、wikiHow 和 Pushshift Reddit 数据集。来自 Stack Exchange 和 wikiHow 的答案与 AI 智能体的行为很一致，因此可以深度挖掘，而 Reddit 的高赞答案往往是幽默的或带有恶意，需要一种人工的方法来管理回答，遵循适当的风格。

人工撰写的样本

为进一步丰富数据，研究团队还自己制作 prompt，指定两组作者 (分别为 A 组和 B 组)，由他们自己或朋友的兴趣各自创建 250 个 prompt。从 A 组中选择 200 个 prompt 进行训练，并将 50 个 prompt 作为保留的开发集。过滤部分有问题的 prompt 后，将 B 组中剩余的 230 个 prompt 用于测试。

训练 LIMA

该研究以 LLaMa 65B [Touvron et al., 2023] 作为基础模型，使用包含 1000 个样本的对齐训练集进行了微调。为了区分每个说话者（用户和助手），该研究在每段话语结束时引入一个特殊的回合结束 token（EOT），该 token 与停止生成的 EOS 起着相同的作用，但避免了与预训练模型已注入的 EOS token 产生混淆。

该研究遵循标准的微调超参数，包括：使用 AdamW [Loshchilov 和 Hutter，2017] 微调 15 个 epoch，其中 β_1=0.9，β_2=0.95，权重衰减（weight decay）为 0.1。在没有预热（warmup）步骤的情况下，该研究将初始学习率（learning rate）设置为，并在训练结束时衰减到。批大小设置为 32 个样本（对于较小的模型设置为 64 个），超过 2048 个 token 的文本将被修剪。值得注意的是，这种方法与 norm 不同的是使用了残差 dropout。该研究按照 Ouyang et al. [2022] 的方法，并在残差连接（residual connection）上应用 dropout，底层 p_d=0.0，线性增长至最后一层 p_d=0.3（对于较小的模型 p_d=0.2）。该研究发现发现困惑度与生成质量无关，因此使用留出（held-out）50 样本开发集手动选择了第 5 个和第 10 个 epoch 之间的检查点。

人类评估

该研究将 LIMA 与 SOTA 语言模型进行了比较评估，结果表明 LIMA 优于 OpenAI 基于 RLHF 的 DaVinci003 和在 52000 个样本上训练的 Alpaca 65B 参数复现版本，并且可以生成比 GPT-4 更好或与之媲美的回答。我们来看一下具体的实验结果。

结果

下图 1 显示了人类偏好评估结果，图 2 显示了 GPT-4 偏好评估结果。该研究第一个观察结果是，尽管使用 52 倍的数据进行训练，Alpaca 65B 输出的结果往往不如 LIMA，而使用高级对齐方法 RLHF 训练的 DaVinci003 也是如此。

多轮对话

一个仅在 1000 次单回合互动中进行微调的模型能否参与多回合对话？研究者还在 10 个现场对话中测试了 LIMA，将每个回答标记为失败、通过或优秀。

对于一个零样本聊天机器人来说，LIMA 的回答展现出了惊人的一致性，它能够参考对话中以前的步骤信息。但很明显的是，该模型的操作超出了分布范围；在 10 个对话中的 6 个，LIMA 在 3 次互动中未能遵循 prompt。

为了提高它的对话能力，研究者收集了 30 个多轮对话链。在这些对话中，有 10 个对话是由作者创作的，而剩下的 20 个对话是基于 Stack Exchange 的评论链，研究者对其进行了编辑以适应助手的风格。利用合并后的 1030 个样本，他们从预训练的 LLaMa 模型中微调了一个新版本的 LIMA，并根据用于零样本模型的相同 prompt 进行了 10 次现场对话。

图 7 显示了回答质量的分布。增加对话后，大大改善了生成质量，将优秀回答的比例从 45.2% 提高到 76.1%。此外，失败率从每 42 个回合有 15 次失败（零样本）下降到每 46 次有 1 次失败（微调）。

研究者进一步比较了整个对话的质量，发现微调模型在 10 个对话中的 7 个表现明显更好，在 3 个对话中与零样本模型打成平手。从仅仅 30 个样本中获得的这种能力的飞跃，以及零样本模型可以进行对话的事实，加强了这样的假设：这种能力是在预训练中学习的，并且可以通过有限的监督来调用。

综上所述，在 1000 个精心策划的例子上对一个强大的预训练语言模型进行微调，可以在广泛的 prompt 中产生显著的、有竞争力的结果。然而，这种方法也有局限性：首先，构建这样的样本所付出的脑力劳动是巨大的，而且很难扩大规模。其次，LIMA 并不像产品级模型那样鲁棒，虽然 LIMA 通常会产生良好的反应，但在解码过程中一个不幸运的样本或一个敌对的 prompt 往往会导致一个弱的反应。尽管如此，这项工作中提出的证据表明，用简单的方法来解决复杂的对齐问题是有潜力的。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

通信：GPT-4发布\u0026星链突破4100颗，建议重点关注AIGC+卫星板块

2023-05-27 17:24

是谁独享GPT-4的视觉识别系统？让Ai成为视觉障碍者的眼睛

2023-05-27 17:19