> 自媒体 > (AI)人工智能 > 匹敌GPT-4!Meta发布LIMA 65B,1000个样本性能飞升,LeCun转赞
匹敌GPT-4!Meta发布LIMA 65B,1000个样本性能飞升,LeCun转赞
来源:新智元
2023-05-26 22:04:54
513
管理

编辑:桃子 好困

【新智元导读】RLHF并没有那么重要!Meta最新650亿参数模型LIMA,仅用1000个样本,实现与GPT-4相匹敌的性能。

人人都知,让ChatGPT称霸天下的秘密武器,就是人类反馈强化学习(RLHF)。

而现在,Meta AI等机构的爆火研究LIMA直接打破这一规则,直言RLHF并没有那么重要!

论文一出,直接在AI圈炸了锅!

就连LeCun忍不住发推炫一番:LIMA:LLaMa-65B 1000监督样本=GPT-4/Bard级别的性能。

论文地址:https://arxiv.org/abs/2305.11206

论文中,研究人员将这一突破称为「表面对齐假设」(Superficial Alignment Hypothesis)。

实验证明了,大语言模型在预训练阶段就已习得大部分知识,仅用有限的指令微调数据,足以教会模型产生高质量的内容。

高质量的数据就可以克服小样本量?训练这样模型的成本是多少,这是否意味着小型LLM玩家可以与OpenAI/谷歌竞争?

训练提示(输入)、响应(输出)以及测试提示的来源

此外,研究者手动编写了250个提示和响应的样本,同时对任务的多样性进行了优化。

最后,研究人员对预训练LLaMa 65B模型在1000个样本集上进行微调,并进行了人类评估。

评估结果

Meta将LIMA与5个模型基准进行了比较:(在2023年4月期间,对所有基准的响应进行了采样)

Alpaca 65B——利用52,000个样本对LLaMa 65B微调后得到的大模型

DaVinci003——基于RLHF训练的大语言模型

Bard——基于谷歌的PaLM模型

Claude——通过强化学习Constitutional AI训练的52B参数模型

GPT-4——目前使用RLHF训练的最强的模型

为了比较LIMA和其他SOTA模型,Meta为每个测试提示生成一个单一的响应。

然后,要求人类参与者将LIMA的输出与每个基准进行比较,并标记他们更喜欢哪一个。

在人类偏好研究中,尽管Alpaca 65B的训练数据量是LIMA的52倍,但它产生的输出往往比LIMA的不如人意。

让人大跌眼镜的是,DaVinci003也是同样的情况,虽然程度较小。该模型使用了RLHF进行训练,这本应是一种更优越的对齐方法。

而Bard在42%的时间中,其产生的回答优于LIMA。这也意味着,剩下的58%时间里,LIMA的响应至少和Bard一样优秀。

最后,研究者发现,虽然Claude和GPT-4通常表现得比LIMA更好,但在一些情况下,LIMA实际上能产生更好的回答。

另外,讽刺的是,在GPT-4的偏好研究中,有19%的时间,GPT-4更喜欢LIMA的输出。

另外,一个仅在1000个样本上微调的模型在多轮对话中表现又如何?

在零样本上,LIMA的响应出奇地连贯,并引用了前面对话的信息。在10次对话中,LIMA有3次未能遵循提示。

为了提高对话能力,研究人员收集了30个多轮对话。其中10个是由作者手动编写,20个来自Stack Exchange,并根据助手风格进行编辑。

研究者使用组合的1,030个示例对预训练模型进行微调,得到一个新版本的LIMA,并针对相同的提示进行了10次实时对话。

实验发现加入这30个示例后生成质量显著提升,优质响应比例从45.2%提高到76.1%!

作者介绍

Chunting Zhou是Meta AI的一名研究科学家。

2022年5月,她在卡内基梅隆大学语言技术研究所获得博士学位,在那里从事自然语言处理工作,导师是Graham Neubig。Zhou的主要研究兴趣在于自然语言处理和机器学习的交叉领域,并对开发对分布变化具有鲁棒性的方法感兴趣,目的是学习模型能够在各种群体中表现统一。

此外,Zhou还研究生成模型,及其在自然语言处理任务中的应用。

参考资料:

https://arxiv.org/abs/2305.11206

2
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
有网友询问:ChatGPT是什么东西?chat是聊天,GPT代表什么?..
一位网友曾询问:“ChatGPT是什么东西?‘chat’是聊天,‘GPT’代表什么..
开发不会消灭人类的AI!马斯克官宣TruthGPT,暗示将起诉OpenAI..
对于AI,马斯克曾发表过“AI比核弹更危险”、“AI可能会操纵舆论、破坏文..
为啥在国外大火的ChatGPT,为啥在国内并没有掀起太大波澜呢?..
为什么在国外大火的ChatGPT,在国内没有掀起大波澜?这个国外人人皆知的..
行业问题有困扰,易撰ChatAI来解答
新媒体领域赚钱快并且数目也不小,一直是当代社会中众所皆知的事情。人们..
公考越来越难了,多等一年,上岸可能性更低
为什么公考越来越难考上了公考正规化至今已超10年,随着时间推移,公考环..
喝酒行情来了!创业板指涨逾1%,哪些板块在表演?
近期美股走势是一根大阳线带上几根小阴线,整体来看还是明显的上攻形态,..
人际沟通,不会接话怎么办?掌握这5个高情商聊天技巧.....
人际沟通,不会接话怎么办?掌握这5个高情商聊天技巧,就够用了1、对别人..
OpenAI 尘埃落地 “CEO回归、董事会大换血”
OpenAI这几天真是一波三折。我前几天还发了一篇山姆·奥特曼加入微软的文..
科技大厂“混战”ChatGPT,新搜索大战一触即发
华夏时报(www.chinatimes.net.cn)记者 卢晓 北京报道如果说AlphaGo当年..
关于作者
感恩的人(普通会员)
文章
590
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
2
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索