匹敌GPT-4！Meta发布LIMA 65B，1000个样本性能飞升，LeCun转赞-脚本导航

> 自媒体 > （AI）人工智能 > 匹敌GPT-4！Meta发布LIMA 65B，1000个样本性能飞升，LeCun转赞

匹敌GPT-4！Meta发布LIMA 65B，1000个样本性能飞升，LeCun转赞

来源：新智元

2023-05-26 22:04:54

513

管理

编辑：桃子好困

【新智元导读】RLHF并没有那么重要！Meta最新650亿参数模型LIMA，仅用1000个样本，实现与GPT-4相匹敌的性能。

人人都知，让ChatGPT称霸天下的秘密武器，就是人类反馈强化学习（RLHF）。

而现在，Meta AI等机构的爆火研究LIMA直接打破这一规则，直言RLHF并没有那么重要！

论文一出，直接在AI圈炸了锅！

就连LeCun忍不住发推炫一番：LIMA：LLaMa-65B 1000监督样本=GPT-4/Bard级别的性能。

论文地址：https://arxiv.org/abs/2305.11206

论文中，研究人员将这一突破称为「表面对齐假设」（Superficial Alignment Hypothesis）。

实验证明了，大语言模型在预训练阶段就已习得大部分知识，仅用有限的指令微调数据，足以教会模型产生高质量的内容。

高质量的数据就可以克服小样本量？训练这样模型的成本是多少，这是否意味着小型LLM玩家可以与OpenAI/谷歌竞争？

训练提示（输入）、响应（输出）以及测试提示的来源

此外，研究者手动编写了250个提示和响应的样本，同时对任务的多样性进行了优化。

最后，研究人员对预训练LLaMa 65B模型在1000个样本集上进行微调，并进行了人类评估。

评估结果

Meta将LIMA与5个模型基准进行了比较：（在2023年4月期间，对所有基准的响应进行了采样）

Alpaca 65B——利用52,000个样本对LLaMa 65B微调后得到的大模型

DaVinci003——基于RLHF训练的大语言模型

Bard——基于谷歌的PaLM模型

Claude——通过强化学习Constitutional AI训练的52B参数模型

GPT-4——目前使用RLHF训练的最强的模型

为了比较LIMA和其他SOTA模型，Meta为每个测试提示生成一个单一的响应。

然后，要求人类参与者将LIMA的输出与每个基准进行比较，并标记他们更喜欢哪一个。

在人类偏好研究中，尽管Alpaca 65B的训练数据量是LIMA的52倍，但它产生的输出往往比LIMA的不如人意。

让人大跌眼镜的是，DaVinci003也是同样的情况，虽然程度较小。该模型使用了RLHF进行训练，这本应是一种更优越的对齐方法。

而Bard在42%的时间中，其产生的回答优于LIMA。这也意味着，剩下的58%时间里，LIMA的响应至少和Bard一样优秀。

最后，研究者发现，虽然Claude和GPT-4通常表现得比LIMA更好，但在一些情况下，LIMA实际上能产生更好的回答。

另外，讽刺的是，在GPT-4的偏好研究中，有19%的时间，GPT-4更喜欢LIMA的输出。

另外，一个仅在1000个样本上微调的模型在多轮对话中表现又如何？

在零样本上，LIMA的响应出奇地连贯，并引用了前面对话的信息。在10次对话中，LIMA有3次未能遵循提示。

为了提高对话能力，研究人员收集了30个多轮对话。其中10个是由作者手动编写，20个来自Stack Exchange，并根据助手风格进行编辑。

研究者使用组合的1,030个示例对预训练模型进行微调，得到一个新版本的LIMA，并针对相同的提示进行了10次实时对话。

实验发现加入这30个示例后生成质量显著提升，优质响应比例从45.2％提高到76.1％！

作者介绍

Chunting Zhou是Meta AI的一名研究科学家。

2022年5月，她在卡内基梅隆大学语言技术研究所获得博士学位，在那里从事自然语言处理工作，导师是Graham Neubig。Zhou的主要研究兴趣在于自然语言处理和机器学习的交叉领域，并对开发对分布变化具有鲁棒性的方法感兴趣，目的是学习模型能够在各种群体中表现统一。

此外，Zhou还研究生成模型，及其在自然语言处理任务中的应用。

参考资料：

https://arxiv.org/abs/2305.11206

2

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

家用版GPT-4！微软开源微调指令集效果不输原版，中英双语都能用

2023-05-26 22:05

OpenAI即将推出GPT-4，用较少样本执行更多任务

2023-05-26 21:59

相关文章

有网友询问：ChatGPT是什么东西？chat是聊天，GPT代表什么？..

一位网友曾询问：“ChatGPT是什么东西？‘chat’是聊天，‘GPT’代表什么..

开发不会消灭人类的AI！马斯克官宣TruthGPT，暗示将起诉OpenAI..

对于AI，马斯克曾发表过“AI比核弹更危险”、“AI可能会操纵舆论、破坏文..

为啥在国外大火的ChatGPT，为啥在国内并没有掀起太大波澜呢？..

为什么在国外大火的ChatGPT，在国内没有掀起大波澜？这个国外人人皆知的..

行业问题有困扰，易撰ChatAI来解答

新媒体领域赚钱快并且数目也不小，一直是当代社会中众所皆知的事情。人们..

公考越来越难了，多等一年，上岸可能性更低

为什么公考越来越难考上了公考正规化至今已超10年，随着时间推移，公考环..

喝酒行情来了！创业板指涨逾1%，哪些板块在表演？

近期美股走势是一根大阳线带上几根小阴线，整体来看还是明显的上攻形态，..

人际沟通，不会接话怎么办？掌握这5个高情商聊天技巧.....

人际沟通，不会接话怎么办？掌握这5个高情商聊天技巧，就够用了1、对别人..

OpenAI 尘埃落地 “CEO回归、董事会大换血”

OpenAI这几天真是一波三折。我前几天还发了一篇山姆·奥特曼加入微软的文..

科技大厂“混战”ChatGPT，新搜索大战一触即发

华夏时报（www.chinatimes.net.cn）记者卢晓北京报道如果说AlphaGo当年..

关于作者

感恩的人(普通会员)

文章

590

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

05

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

2023/08/26

标签云

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved

浙ICP备19035174号-7

2

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索