编辑:桃子 好困
【新智元导读】RLHF并没有那么重要!Meta最新650亿参数模型LIMA,仅用1000个样本,实现与GPT-4相匹敌的性能。人人都知,让ChatGPT称霸天下的秘密武器,就是人类反馈强化学习(RLHF)。
而现在,Meta AI等机构的爆火研究LIMA直接打破这一规则,直言RLHF并没有那么重要!
论文一出,直接在AI圈炸了锅!
就连LeCun忍不住发推炫一番:LIMA:LLaMa-65B 1000监督样本=GPT-4/Bard级别的性能。
论文地址:https://arxiv.org/abs/2305.11206
论文中,研究人员将这一突破称为「表面对齐假设」(Superficial Alignment Hypothesis)。
实验证明了,大语言模型在预训练阶段就已习得大部分知识,仅用有限的指令微调数据,足以教会模型产生高质量的内容。
高质量的数据就可以克服小样本量?训练这样模型的成本是多少,这是否意味着小型LLM玩家可以与OpenAI/谷歌竞争?
训练提示(输入)、响应(输出)以及测试提示的来源
此外,研究者手动编写了250个提示和响应的样本,同时对任务的多样性进行了优化。
最后,研究人员对预训练LLaMa 65B模型在1000个样本集上进行微调,并进行了人类评估。
评估结果
Meta将LIMA与5个模型基准进行了比较:(在2023年4月期间,对所有基准的响应进行了采样)
Alpaca 65B——利用52,000个样本对LLaMa 65B微调后得到的大模型
DaVinci003——基于RLHF训练的大语言模型
Bard——基于谷歌的PaLM模型
Claude——通过强化学习Constitutional AI训练的52B参数模型
GPT-4——目前使用RLHF训练的最强的模型
为了比较LIMA和其他SOTA模型,Meta为每个测试提示生成一个单一的响应。
然后,要求人类参与者将LIMA的输出与每个基准进行比较,并标记他们更喜欢哪一个。
在人类偏好研究中,尽管Alpaca 65B的训练数据量是LIMA的52倍,但它产生的输出往往比LIMA的不如人意。
让人大跌眼镜的是,DaVinci003也是同样的情况,虽然程度较小。该模型使用了RLHF进行训练,这本应是一种更优越的对齐方法。
而Bard在42%的时间中,其产生的回答优于LIMA。这也意味着,剩下的58%时间里,LIMA的响应至少和Bard一样优秀。
最后,研究者发现,虽然Claude和GPT-4通常表现得比LIMA更好,但在一些情况下,LIMA实际上能产生更好的回答。
另外,讽刺的是,在GPT-4的偏好研究中,有19%的时间,GPT-4更喜欢LIMA的输出。
另外,一个仅在1000个样本上微调的模型在多轮对话中表现又如何?
在零样本上,LIMA的响应出奇地连贯,并引用了前面对话的信息。在10次对话中,LIMA有3次未能遵循提示。
为了提高对话能力,研究人员收集了30个多轮对话。其中10个是由作者手动编写,20个来自Stack Exchange,并根据助手风格进行编辑。
研究者使用组合的1,030个示例对预训练模型进行微调,得到一个新版本的LIMA,并针对相同的提示进行了10次实时对话。
实验发现加入这30个示例后生成质量显著提升,优质响应比例从45.2%提高到76.1%!
作者介绍
Chunting Zhou是Meta AI的一名研究科学家。
2022年5月,她在卡内基梅隆大学语言技术研究所获得博士学位,在那里从事自然语言处理工作,导师是Graham Neubig。Zhou的主要研究兴趣在于自然语言处理和机器学习的交叉领域,并对开发对分布变化具有鲁棒性的方法感兴趣,目的是学习模型能够在各种群体中表现统一。
此外,Zhou还研究生成模型,及其在自然语言处理任务中的应用。
参考资料:
相关文章
猜你喜欢