> 自媒体 > (AI)人工智能 > 匹敌GPT-4!Meta发布LIMA 65B,1000个样本性能飞升,LeCun转赞
匹敌GPT-4!Meta发布LIMA 65B,1000个样本性能飞升,LeCun转赞
来源:新智元
2023-05-26 22:04:54
361
管理

编辑:桃子 好困

【新智元导读】RLHF并没有那么重要!Meta最新650亿参数模型LIMA,仅用1000个样本,实现与GPT-4相匹敌的性能。

人人都知,让ChatGPT称霸天下的秘密武器,就是人类反馈强化学习(RLHF)。

而现在,Meta AI等机构的爆火研究LIMA直接打破这一规则,直言RLHF并没有那么重要!

论文一出,直接在AI圈炸了锅!

就连LeCun忍不住发推炫一番:LIMA:LLaMa-65B 1000监督样本=GPT-4/Bard级别的性能。

论文地址:https://arxiv.org/abs/2305.11206

论文中,研究人员将这一突破称为「表面对齐假设」(Superficial Alignment Hypothesis)。

实验证明了,大语言模型在预训练阶段就已习得大部分知识,仅用有限的指令微调数据,足以教会模型产生高质量的内容。

高质量的数据就可以克服小样本量?训练这样模型的成本是多少,这是否意味着小型LLM玩家可以与OpenAI/谷歌竞争?

训练提示(输入)、响应(输出)以及测试提示的来源

此外,研究者手动编写了250个提示和响应的样本,同时对任务的多样性进行了优化。

最后,研究人员对预训练LLaMa 65B模型在1000个样本集上进行微调,并进行了人类评估。

评估结果

Meta将LIMA与5个模型基准进行了比较:(在2023年4月期间,对所有基准的响应进行了采样)

Alpaca 65B——利用52,000个样本对LLaMa 65B微调后得到的大模型

DaVinci003——基于RLHF训练的大语言模型

Bard——基于谷歌的PaLM模型

Claude——通过强化学习Constitutional AI训练的52B参数模型

GPT-4——目前使用RLHF训练的最强的模型

为了比较LIMA和其他SOTA模型,Meta为每个测试提示生成一个单一的响应。

然后,要求人类参与者将LIMA的输出与每个基准进行比较,并标记他们更喜欢哪一个。

在人类偏好研究中,尽管Alpaca 65B的训练数据量是LIMA的52倍,但它产生的输出往往比LIMA的不如人意。

让人大跌眼镜的是,DaVinci003也是同样的情况,虽然程度较小。该模型使用了RLHF进行训练,这本应是一种更优越的对齐方法。

而Bard在42%的时间中,其产生的回答优于LIMA。这也意味着,剩下的58%时间里,LIMA的响应至少和Bard一样优秀。

最后,研究者发现,虽然Claude和GPT-4通常表现得比LIMA更好,但在一些情况下,LIMA实际上能产生更好的回答。

另外,讽刺的是,在GPT-4的偏好研究中,有19%的时间,GPT-4更喜欢LIMA的输出。

另外,一个仅在1000个样本上微调的模型在多轮对话中表现又如何?

在零样本上,LIMA的响应出奇地连贯,并引用了前面对话的信息。在10次对话中,LIMA有3次未能遵循提示。

为了提高对话能力,研究人员收集了30个多轮对话。其中10个是由作者手动编写,20个来自Stack Exchange,并根据助手风格进行编辑。

研究者使用组合的1,030个示例对预训练模型进行微调,得到一个新版本的LIMA,并针对相同的提示进行了10次实时对话。

实验发现加入这30个示例后生成质量显著提升,优质响应比例从45.2%提高到76.1%!

作者介绍

Chunting Zhou是Meta AI的一名研究科学家。

2022年5月,她在卡内基梅隆大学语言技术研究所获得博士学位,在那里从事自然语言处理工作,导师是Graham Neubig。Zhou的主要研究兴趣在于自然语言处理和机器学习的交叉领域,并对开发对分布变化具有鲁棒性的方法感兴趣,目的是学习模型能够在各种群体中表现统一。

此外,Zhou还研究生成模型,及其在自然语言处理任务中的应用。

参考资料:

https://arxiv.org/abs/2305.11206

2
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
感恩的人(普通会员)
文章
350
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186809 电子证书796 电子名片49 自媒体20815

@2022 All Rights Reserved 浙ICP备19035174号-7
2
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索