我们一直在关注 OpenAI 的动向。谁会跨越下一个里程碑?下一步会是什么?
但令人不安的事实是,我们没有立足之地去赢得这场竞争,OpenAI也没有。而我们一直在争吵的时候,第三方正在悄悄地吃掉我们的午餐。
当然,我所说的是开源。简单地说,他们正在领先于我们。我们认为是“重大开放问题”的事情,今天已经被解决并在人们手中了。仅举几例:
手机上的 LLMs:人们正在 Pixel 6 上以每秒 5 个令牌的速度运行基础模型。可扩展的个人 AI:您可以在一个晚上在您的笔记本电脑上微调个性化 AI。负责任的发布:这不是“解决了”,而是“不再是问题”。整个网站都充满了没有任何限制的艺术模型,而文本也不远了。多模态:当前的多模态科学问答 SOTA 是在一个小时内训练出来的。虽然我们的模型在质量上仍然稍微领先一些,但差距正在惊人地迅速缩小。开源模型更快、更可定制、更私密,而且比重量级模型更有能力。他们用 100 美元和 130 亿个参数做着我们用 1000 万美元和 5400 亿个参数仍然很困难的事情。而且他们能在几周内做到这一点,而不是几个月。这对我们有深远的影响:
我们没有秘密酱。我们最好的希望是学习和与 Google 之外的其他人合作。我们应该优先考虑实现第三方集成。人们不会为受限模型支付费用,当质量相当的自由模型可供选择时。我们应该考虑我们真正的价值所在。巨型模型正在拖慢我们的步伐。从长远来看,最好的模型是可以快速迭代的模型。现在我们知道在小于 200 亿个参数的范围内可能做到什么,我们应该把小变体视为重点,而不是后顾之忧。发生了什么三月初,开源社区获得了他们第一个真正有能力的基础模型,即 Meta 的 LLaMA 被泄露给公众。它没有指令或对话调整,也没有强化学习或高阶反馈。尽管如此,社区立即理解了他们所得到的东西的重要性。
随之而来的是大量的创新,重大进展之间只隔了几天时间(完整的时间线请参见时间轴)。现在,仅仅一个月过去了,就已经有了具有指令调整、量化、质量改进、人工评估、多模态、高阶反馈等变体。其中许多想法相互建立。
最重要的是,他们已经解决了缩放问题,以至于任何人都可以 tinkering(修补、调整)。许多新想法来自普通人。训练和实验的进入门槛从一个重要研究机构的总输出降至一个人、一个晚上和一台强大的笔记本电脑。
我们为什么能够预见到这一切的到来从许多方面来看,这对任何人来说都不应该是个惊喜。当前开源LLM的复兴紧随图像生成复兴之后。社区没有忽视这些相似之处,许多人称这是LLM的“稳定扩散时刻”。
在这两种情况下,通过一种名为低秩自适应(LoRA)的大大廉价的微调机制,加上规模上的重大突破(用于图像合成的潜在扩散,用于LLM的Chinchilla),才使得低成本的公众参与成为可能。在这两种情况下,获得足够高质量的模型开启了世界各地个人和机构的想法和迭代的热潮。在这两种情况下,这很快超越了大型参与者的能力。
这些贡献对于图像生成领域至关重要,让Stable Diffusion走上了与Dall-E不同的道路。拥有开放模型导致了产品集成、市场、用户界面和创新,这些在Dall-E中没有发生。
这种影响是明显的:在文化影响方面迅速占据主导地位,而OpenAI的解决方案变得越来越无关紧要。LLM是否也会出现类似的情况还有待观察,但广泛的结构元素是相同的。
我们错过了什么我们错过的是推动开源最近成功的创新直接解决了我们仍在努力解决的问题。更多关注他们的工作可能有助于我们避免重复造轮子。
LoRA是一种非常强大的技术,我们可能应该更加关注 LoRA通过将模型更新表示为低秩分解来工作,这可以将更新矩阵的大小降低到数千倍。这使得模型微调的成本和时间大幅降低。能够在消费级硬件上在几小时内个性化语言模型是一件大事,尤其是对于旨在在近实时中融合新的和多样化知识的愿景来说。尽管它直接影响了我们最雄心勃勃的项目之一,但这项技术在谷歌内部的利用还不足。
从头开始重新训练模型是一条艰难的道路LoRA之所以如此有效,部分原因在于它可以像其他微调形式一样进行堆叠。诸如指令微调等改进可以被应用并用作其他贡献者添加对话、推理或工具使用等内容的基础。虽然单个微调是低秩的,但它们的总和不必如此,允许全秩更新积累随着时间的推移。
这意味着,随着新的和更好的数据集和任务的出现,模型可以廉价地保持最新状态,而无需支付全面运行的成本。
相比之下,从头开始训练庞大的模型不仅浪费了预训练,还浪费了在其之上进行的任何迭代改进。在开源世界中,这些改进很快就会主导,使得完全重新训练变得极其昂贵。
我们应该审慎地考虑每个新应用或想法是否真的需要全新的模型。如果我们真的有重大的架构改进,无法直接重用模型权重,那么我们应该投资于更积极的蒸馏形式,使我们尽可能保留上一代的能力。
如果我们可以更快地迭代小型模型,长期来看大型模型并不更具有能力对于最流行的模型尺寸,LoRA更新的成本非常便宜(约100美元)。这意味着几乎任何人都可以产生并分发这些更新。训练时间不到一天已经成为了常态。以这样的速度,所有这些微调的累积效应很快就能克服从一个尺寸劣势开始的不利因素。实际上,在工程师小时方面,这些模型的改进速度远远超过我们使用最大变体所能做的,而最好的模型已经基本无法与ChatGPT区分。专注于维护一些全球最大的模型实际上会使我们处于劣势。
数据质量比数据大小更容易扩展许多项目通过在小型、高度精选的数据集上进行训练来节省时间。这表明数据缩放定律有一定的灵活性。这些数据集的存在源于Data Doesn't Do What You Think的思路,并且在Google之外进行训练时,它们正在迅速成为标准的训练方式。这些数据集使用合成方法构建(例如从现有模型中过滤出最佳响应)和从其他项目中搜索,这两者在Google中都不是主导因素。幸运的是,这些高质量的数据集是开源的,因此它们可以免费使用。
与开源直接竞争是一种失败的提议最近的进展对我们的商业策略有直接而即时的影响。如果有一个没有使用限制的免费高质量替代品,谁会购买带有使用限制的谷歌产品呢?
而且我们不应该指望能够赶上开源。现代互联网之所以依赖开源,是有一些重要的优势,这是我们无法复制的。
我们需要它们多于它们需要我们保守我们的技术优势一直都是一个脆弱的提议。谷歌的研究人员定期离开公司去其他公司,因此我们可以假设他们知道我们所知道的一切,并且将继续知道,只要这条管道保持开放。
但是,现在随着LLMs的前沿研究变得负担得起,保持技术上的竞争优势变得更加困难。全世界的研究机构正在建立在彼此的工作基础上,以宽度优先的方式探索解决方案空间,远远超过了我们自己的能力。我们可以试图紧紧抓住我们的秘密,而外部创新会稀释它们的价值,或者我们可以尝试互相学习。
个人不像公司那样受到许可证的限制许多创新都是在 Meta 泄漏的模型权重基础上实现的。虽然随着真正开放的模型变得更好,这种情况不可避免地会改变,但关键是他们不必等待。个人使用的法律保护和起诉个人的不现实性意味着,个人可以在这些技术处于热门时获得访问权。
成为自己的客户意味着你理解使用情况浏览人们在图像生成领域创建的模型,有着广泛的创造力,从动漫生成器到HDR风景。这些模型由那些深入沉浸于自己的特定子流派中的人使用和创建,为我们无法匹敌的知识和同理心提供了深度。
拥有生态系统:让开源为我们工作具有讽刺意味的是,在这一切中唯一的赢家是 Meta。因为泄漏的模型是他们的,他们已经有效地获得了整个星球的免费劳动力。由于大多数开源创新都是在他们的架构之上进行的,所以没有任何东西可以阻止他们将其直接纳入产品中。
拥有生态系统的价值不可高估。Google本身在其开源产品(如Chrome和Android)中成功使用了这种范式。通过拥有创新发生的平台,Google巩固了自己作为思想领袖和方向制定者的地位,赢得了塑造比自己更大的思想的能力。
我们控制模型的程度越高,我们就越容易使开源替代方案更具吸引力。Google和OpenAI都采取了保守的发布模式,以保持对其模型使用方式的严格控制。但是这种控制是一种虚构。任何寻求用LLMs进行未经授权用途的人都可以随意选择免费提供的模型。
Google应该成为开源社区的领袖,通过与而非忽视更广泛的对话来领导这一进程。这可能意味着采取一些令人不舒服的步骤,例如发布小型ULM变体的模型权重。这必然意味着放弃对我们模型的一些控制。但这种妥协是不可避免的。我们不能希望既推动创新又控制它。
尾声:OpenAI怎么办?所有这些关于开源的谈话在OpenAI目前的封闭政策下可能会感到不公平。如果他们不分享,我们为什么要分享呢?但事实是,我们已经通过不断流失的高级研究人员与他们分享了一切。在我们制止这种流失之前,保密是没有意义的。
最终,OpenAI并不重要。他们在相对于开源的姿态上犯了与我们相同的错误,他们保持优势的能力必然会受到质疑。除非他们改变立场,否则开源替代品最终可以并将超越他们。至少在这方面,我们可以率先行动。
时间线2023年2月24日 - LLaMA 发布 Meta 发布 LLaMA,开源代码,但不开源权重。此时,LLaMA 还没有针对指令或对话进行微调。像许多当前的模型一样,它是一个相对较小的模型(可用于 7B、13B、33B 和 65B 参数),经过相对长时间的训练,因此相对于其大小而言非常有能力。
2023年3月3日 - 不可避免的事件发生 不到一周,LLaMA 就被泄露到公众手中。对社区的影响不可高估。现有的许可证阻止它用于商业目的,但突然间任何人都能进行实验。从这一点开始,创新飞快地出现。
2023年3月12日 - 烤面包机上的语言模型 一个多星期后,Artem Andreenko 让该模型在 Raspberry Pi 上运行。此时该模型运行速度太慢,以至于不能实际应用,因为必须将权重页入页出到内存中。尽管如此,这奠定了缩小模型尺寸的努力的基础。
2023年3月13日 - 笔记本电脑上的微调 接下来的一天,斯坦福大学发布了 Alpaca,为 LLaMA 添加了指令微调。然而,比实际权重更重要的是 Eric Wang 的 alpaca-lora 仓库,该仓库使用低秩微调在单个 RTX 4090 上进行训练,仅需数小时。
突然间,任何人都可以对模型进行微调以进行任何操作,引发了低成本微调项目的竞争。论文自豪地描述了他们的总支出仅为几百美元。此外,低秩更新可以轻松分发并与原始权重分开使用,使它们独立于来自 Meta 的原始许可证。任何人都可以共享和应用它们。
2023年3月18日 - 现在它很快了 Georgi Gerganov 使用 4 位量化在 MacBook CPU 上运行 LLaMA。这是第一个“无 GPU”解决方案,速度足够快以实际应用。
2023年3月19日 - 13B模型达到与Bard的“同等水平” 第二天,一个跨大学的合作发布了Vicuna,并使用GPT-4强大的评估功能提供了模型输出的定性比较。尽管评估方法存在问题,但该模型比早期版本实质上更好。训练成本为:300美元。
值得注意的是,他们能够在规避ChatGPT API限制的同时使用ChatGPT的数据,他们只是在像ShareGPT这样的网站上随机抽样“令人印象深刻”的ChatGPT对话示例。
2023年3月25日 - 选择您的模型 Nomic创建了GPT4All,这是一个既是模型又是更为重要的生态系统。首次看到多种模型(包括Vicuna)被聚集在一起。训练成本为:100美元。
2023年3月28日 - 开放源代码GPT-3 Cerebras(不要与我们自己的Cerebra混淆)使用Chinchilla所暗示的最佳计算时间表和μ参数化所暗示的最佳缩放来训练GPT-3架构。这超越了现有的GPT-3克隆,并代表了首次在实践中确认使用μ参数化。这些模型是从头开始训练的,这意味着社区不再依赖LLaMA。
2023年3月28日 - 一小时内的多模态训练 使用新颖的参数有效微调(PEFT)技术,LLaMA-Adapter在一个小时的训练中引入了指令微调和多模态。令人印象深刻的是,他们仅使用了120万个可学习参数。该模型在多模态ScienceQA上实现了新的SOTA。
2023年4月3日 - 真人无法区分13B开放模型和ChatGPT之间的差异 伯克利推出Koala,这是一个完全使用免费可用数据进行训练的对话模型。
他们采取了衡量真实人类偏好的关键步骤,比较他们的模型和ChatGPT之间的差异。虽然ChatGPT仍然略占优势,但超过50%的用户要么更喜欢Koala,要么没有偏好。训练成本:$100。
2023年4月15日 - 在ChatGPT水平上开源RLHF Open Assistant推出了一个模型,更重要的是,他们提供了一个通过RLHF实现Alignment的数据集。他们的模型在人类偏好方面与ChatGPT相近(48.3% vs. 51.7%)。除了LLaMA之外,他们还展示了该数据集可应用于Pythia-12B,使人们可以使用完全开放的堆栈来运行该模型。此外,由于该数据集是公开可用的,因此RLHF从无法实现变为对于小实验者而言是便宜且容易的。
相关文章
猜你喜欢