(报告作者:中信建投分析师王宏、徐建华、陈添奕)
本篇报告比较了 LLAMA2 和 GPT-4 这两个模型。LLAMA2 采用了预规范化和 SwiGLU 激活函数等优化措施,在常识推理和知识面方面表现出优异的性能。GPT-4 是一个规模更大的混合专家模型,具备多语言多模态输入能力。它的代码解释器为解决模型在数学和语言方面的固有弱点提供了有效的方法,使其在数据分析和处理中展现出高超的能力。尽管两者在性能和安全性方面都有改进,但仍存在一定局限性。随着技术的进步,自然语言处理领域有望迎来更多突破和创新,为人工智能的应用带来更广阔的前景。
在训练细节方面,Meta团队在LLAMA-2 项目中保留了一部分先前的预训练设置和模型架构,并进行了一些创新。研究人员继续采用标准的Transformer架构,并使用RMSNorm进行预规范化,同时引入了SwiGLU激活函数和旋转位置嵌入。
对于LLAMA-2 系列不同规模的模型,研究人员进行了训练损耗的比较。值得注意的是,他们在预训练过程中使用了 2T数量的token,并观察到在该训练规模下,模型并未出现任何饱和的迹象。这表明模型在此规模下仍有潜力进一步提升性能,而不会因为数据规模的增加而导致性能收敛。
在训练硬件方面,Meta 团队分别在其研究超级集群(Research Super Cluster, RSC)和内部生产集群上进行了 LLAMA2 模型的预训练。这两个集群均配备了 NVIDIA A100 GPU,这是高性能计算设备,为模型训练提供了强大的计算能力。
以提高奖励模型的准确性,其中边际约束是开源的。为了保证奖励模型的泛化性能,防止出现奖励黑客现象(例如 LLAMA2-Chat 利用了奖励模型的弱点,在表现不佳的情况下夸大奖励分数),在奖励模型的训练过程中,还加入了部分开源的人类偏好数据。
至于训练参数设置,对于 70B 模型,最大学习率为 5e−6,而对于其他模型,最大学习率为 1e−5。采用余弦学习率下降策略,将最低学习率设置为最大学习率的 10%,并进行总步数的 3%进行预热(最少 5 步)。同时,训练批次大小设置为 1024,以提高训练的效率和稳定性。这些精心设置的训练参数有助于确保模型在训练过程中获得更好的收敛效果,并为其在特定任务上取得优异表现提供支持。
通过对替代方案的比较以及对 Meta 团队模型的分析,我们可以更好地了解 Meta 团队的模型在当前阶段的优势和不足之处。这些评估结果为未来模型的改进和优化提供了重要的参考依据。随着继续的研究和发展,Meta 的模型有望在更多任务和领域上取得更卓越的表现。
RLHF 的结果:为了在从 RLHF-V1 到 V5 的每次迭代中从多个模型中选择表现最佳的模型,Meta 的研究人员采取了一系列策略。首先,他们观察了最新奖励模型的奖励改进情况,以节约成本并提高迭代速度。这样的策略有助于在迭代过程中快速筛选出效果较好的模型,从而减少了不必要的计算开销。
随后,在选出的主要模型版本中,通过人工评估对其进行了验证。通过人工评估,研究人员可以对模型的性能进行细致的分析和判断,发现潜在的问题和优化空间。这样的验证过程对于保证模型的质量和可靠性至关重要,同时也为后续的改进和调整提供了重要的参考。
通过上述 RLHF 的迭代过程,Meta 团队能够有效地挑选出优秀的模型版本,并不断优化 LLAMA2-Chat 的性能。这种综合考量的方法使得 LLAMA2-Chat 能够在不断发展的研究领域中保持竞争力,为实际应用中提供更加强大和高效的语言生成能力。
根据上图的结果,我们可以看到,在最大的 LLAMA2-Chat 模型与 ChatGPT 进行对比时,70B 版本的胜率为36%,平局率为 31.5%。这意味着在一定数量的测试样本中,LLAMA2-Chat 在某些任务上取得了胜利,并与ChatGPT 平局。然而,仍有一部分任务在 LLAMA2-Chat 的表现上相对较弱。这些结果对于评估 LLAMA2-Chat 的整体性能和潜力,以及指导后续的优化和改进,具有重要的参考价值。
3.7 LLAMA2 多轮一致性系统消息
在多轮对话中,为了确保系统消息的一致性,即使在不同的对话场景下,某些指令也应该被模型一致地应用,比如简明扼要地做出回应或者扮演某个公众人物等。为了解决这一问题,Meta 团队采用了一种称为"幽灵注意力"(Ghost Attention,GAtt)的简单方法,利用微调数据帮助模型在多轮对话的不同阶段保持注意力的集中。
GAtt 的目标是通过微调数据来约束模型的注意力分布,以使得在特定情况下,模型能够遵循特定的系统指令或规则,从而保持对话的一致性。这种方法的优势在于其简单性和高效性,通过引入额外的微调数据,可以有效地影响模型的行为,使得模型更好地遵循预设的指令和规范。
在下图中,我们可以看到应用幽灵注意力后的结果。通过这种方法,Meta 团队在多轮对话中实现了更好的一致性,使得模型在回应用户时能够更好地遵循特定的系统消息,从而提高了对话的质量和连贯性。这一研究成果为多轮对话系统的优化和应用提供了重要的方法和指导。
上图展示了模型的最大注意力激活情况,每张图的左侧都对应着系统信息。研究人员考虑了整个网络的最 大激活度,并将相邻的标记放在一起。为了说明 GAtt 是如何在微调过程中帮助重塑注意力的。在左图中,显 示了未安装 GAtt(Ghost Attention)的模型,在对话的不同阶段,模型的注意力分布相对较为分散,没有明 显地对系统信息保持较大的注意力激活。
而在右图中,显示了安装了 GAtt 的模型,可以观察到在对话的大部分时间里,该模型能够对系统信息保 持较大的注意力激活。GAtt 的引入有效地约束了模型的注意力分布,使其在特定情况下更加集中,从而能够更好地遵循系统指令或规则,增强了对系统信息的关注和理解能力。
这些结果表明,通过引入幽灵注意力机制,模型在多轮对话中能够更加专注和准确地对系统信息进行处理,从而提高了对话的连贯性和一致性。GAtt 的应用为多轮对话系统的设计和优化带来了新的方法和思路,为提升对话质量和用户体验提供了有益的探索。
3.8 GPT-4 代码解释器
3.8.1 旧版本存在问题的解决方式
解决方法一是通过编写 Python 代码来弥补 LLM 在数学和语言方面的固有弱点。借助 code interpreter 功能,人工智能可以进行复杂的数学计算,并更准确地处理文本中的单词,例如在实际计算段落中的单词。通过编写 Python 代码,可以有效地解决大型语言模型在数学和语言方面的自然弱点,并成功利用这一工具,如下图所示。
此后,GPT-4 会阅读文件并展示其发现。
需要注意,使用代码解释器时,可与 GPT-4 进行对话,无需设计精心的提示词。不过,以下两种情况除外:
(1)模型有时可能会忘记能够执行某些任务,例如制作 GIF 或 3D 图形,可鼓励其尝试(例如:“可以制作 GIF,请尝试”);
(2)若希望模型进一步改进结果时,可以给予相应引导。
根据所呈现的图示,数据已经加载完成,现在可以让 GPT-4 自行完成数据分析中最复杂的数据合并和清理任务。该模型具备自动纠错的功能,并专注于理解提问人的问题方式(再次强调,将其视为一个人,并以相应方式下达指令)。
随着正式分析的开始,代码解释器展现出在各种复杂分析方法上的高超能力。在处理估算缺失数据时,若不满意其提供的方法,请勿轻易放弃。只需简单询问:“能进行另一个非常复杂且有趣的分析吗?”即可探索更多可能的解决方案。
3.8.4 示例二:颜色提取器,从图像中提取调色板
颜色提取器,上传图像并提取颜色创建调色板。例如,上传一张 PNG 图片,解析其中的颜色排列。
3.9 任务性能总结
总体而言,LLAMA2 在常识推理、知识面、阅读理解和数学能力等多个任务上表现出强大的性能,比LLAMA1、MPT、Falcon 和多数开源模型都更优。然而,与 GPT-4 和 PaLM-2-L 等模型相比,LLAMA2 在某些编码任务上仍存在一定的性能差距。尽管如此,LLAMA2 的优异表现证明其在各种自然语言处理任务中具有巨大的潜力。GPT-4 代码解释器的引入有效地弥补了 LLAMA 在数学和语言方面的固有弱点,并通过降低幻觉和虚构率,提升模型的表现。同时,LLAMA2 在数据分析和处理中展现出多功能性,为用户提供便捷、高效的解决方案,使其在多样的自然语言处理任务中表现出卓越性能。
四、多语种支持4.1 多语种支持对比
从语言角度来看,LLAMA2模型在支持中文输入方面具有一定的能力,即可以接受中文作为输入,但其回答大多数情况下都采用英文。这表明 LLAMA2 在中文理解和生成方面的能力相对有限。
相较于 LLAMA2 模型在中文处理方面的有限性,GPT-4 展现出更强大的中文语言处理能力。GPT-4 支持中文输入输出,并且能够完成流利的中文对话。这意味着 GPT-4 在中文文本的理解和生成方面具备更高水平的能力,能够更自如地处理中文输入,并生成相应的中文回答。
左图展示了预训练的 GPT-4 模型在 MMLU 子集上的校准图。从图中可以观察到,该模型对于其生成结果的预测信心与实际正确的概率非常接近,呈现出较好的校准性。虚线对角线代表完美的校准,即模型的预测置信度与实际正确的概率完全一致。
而右图展示了经过 PPO(Proximal Policy Optimization)训练后的 GPT-4 模型在同一 MMLU 子集上的校准图。可见,当前的训练流程对模型的校准性造成了相当大的损害,导致其预测的置信度与实际正确的概率偏离较大。这表明在经过 PPO 训练后,模型的预测结果变得不够可靠和准确,存在一定的校准问题。
需要特别注意的是,校准性是模型评估中的一个重要指标,它反映了模型预测结果的可信度和置信度。理想情况下,一个校准良好的模型在其预测结果的置信度上应该与实际结果的概率相一致,这有助于确保模型在实际应用中能够提供可靠的输出。
5.2 GPT-4 的安全性与合规性
OpenAI 为了提高 GPT-4 的安全性和一致性进行了长达 6 个月的努力。在其内部评估中,GPT-4 相较于 GPT3.5 在对不允许内容的请求进行回应的可能性上降低了 82%。同时,在对真实回应进行生成的可能性方面,GPT-4 相较于 GPT-3.5 提高了 40%。此外,针对政策响应敏感请求(如医疗建议和自我伤害),GPT-4 的回应频率较 GPT-3.5 提高了 29%。
这些结果表明,OpenAI 对 GPT-4 进行了有效的改进,使其能够更好地遵循规定的内容限制,减少了不适当或不当回应的产生。同时,GPT-4 在生成真实回应方面表现更加准确和可靠,有助于提供更有价值的信息和服务。
为了改善 GPT-4 的性能和行为,OpenAI 采取了多种方法进行训练和监控。
首先,OpenAI 积极收集了更多的人工反馈,其中包括 ChatGPT 用户提交的反馈,以及与 50 多位专家合作在人工智能安全和安保等领域获得的早期反馈。这些反馈对于发现和纠正 GPT-4 的潜在问题和缺陷非常重要,有助于进一步改进模型的行为和性能。
其次,OpenAI 将之前模型的实际使用经验应用到 GPT-4 的安全研究和监控系统中。这意味着 OpenAI 从过去模型的应用中吸取教训,不断优化 GPT-4 的性能和安全性。类似于 ChatGPT,随着越来越多的用户使用 GPT4,OpenAI 将定期对其进行更新和改进,以确保模型能够适应实际应用需求。
同时,GPT-4 的先进推理和指令遵循能力为 OpenAI 的安全工作带来了便利。OpenAI 利用 GPT-4 来辅助创建用于模型微调的训练数据,并在训练、评估和监控过程中不断迭代和优化分类器。这样的做法有助于提高模型的鲁棒性和可靠性,加速安全性研究的进程。
5.3 LLAMA2 的安全性与合规性
在对 LLAMA2 的安全性进行评估时,研究团队使用了三个常用基准来评估其在以下三个关键维度上的表现:
真实性:真实性指语言模型是否会产生错误信息。为了评估这一维度,研究团队采用了 TruthfulQA 基准。该基准旨在检测模型是否能够正确回答问题,避免产生虚假或误导性的答案。
毒性:毒性指语言模型是否会产生有毒、粗鲁、有害的内容。为了评估这一维度,研究团队采用了ToxiGen 基准。该基准旨在检测模型是否会产生具有攻击性或不当内容,从而帮助识别和减少潜在的有害输出。
偏见:偏见指语言模型是否会产生存在偏见的内容。为了评估这一维度,研究团队采用了 BOLD 基准。该基准旨在检测模型是否会产生具有种族、性别、地域等方面的偏见内容,以便提高模型的公平性和无偏性。
通过这三个基准的评估,研究团队可以全面了解 LLAMA2 在真实性、毒性和偏见等方面的表现情况。这有助于 OpenAI 进一步优化模型,确保其在各个方面都能够达到高标准的安全性,以满足用户和社会的需求,并促进人工智能的可持续发展。
预训练的安全性方面,预训练的安全性对于模型的健康发展至关重要。Meta 团队进行了一系列实验来评估预训练数据的安全性。其中,他们使用在 ToxiGen 数据集上微调的 HateBERT 分类器,对预训练语料库中的英文数据进行毒性评估。
图表展示了预训练语料库中英文数据的毒性情况。通过ToxiGen基准和HateBERT分类器的评估,研究人员能够了解预训练数据是否存在有害内容,从而帮助确保模型在生成文本时能够避免产生毒性、粗鲁或有害的输出。
Meta使用平均奖励模型得分作为模型在安全性和有用性方面的表现结果。他们观察到,通过增加安全数据 的比例,模型在处理风险和对抗性提示时的性能有了显著提升。这表明提供更多安全数据示例可以帮助模型更 好地处理潜在的风险情况,并产生更加安全和有用的回复。
以上内容仅供学习交流,不构成投资建议。
精选报告来源:文库-远瞻智库相关文章
猜你喜欢