> 自媒体 > (AI)人工智能 > 深度学习变天!Google发布FLAN,模型参数少400亿,性能超越GPT-3
深度学习变天!Google发布FLAN,模型参数少400亿,性能超越GPT-3
来源:新智元
2023-05-22 16:53:31
371
管理

来源:arXiv

编辑:LRS

【新智元导读】你是否抱怨过深度学习这畸形的研究发展路线,大公司才能玩得起sota,普通人连买张显卡都要承受几倍的溢价!最近Google发布了一个新的语言模型FLAN,或许能在深度学习中带来新的发展趋势,它相比GPT-3少了400亿参数,性能还更强!

像OpenAI的GPT-3这样的语言模型,近年来层出不穷,企业也更愿意投入来研究如何利用AI技术和数据来学习文本生成等。

而GPT-3也不负众望,它及它的后继模型能够像人一样来写电子邮件、文本摘要、甚至写各种语言的代码。

消融研究表明,任务数量和模型规模是教学调整成功的关键因素

FLAN 与 GPT-3 的不同之处在于,FLAN 面向60 项自然语言处理任务进行了微调,这些任务通过自然语言指令来表达,例如情感分类中使用“这条影评的情绪是正面还是负面?”来表示。

FLAN是Base LM的指令调优(instruction-tuned)版本。指令调优管道混合了所有数据集,并从每个数据集中随机抽取样本。

各个数据集的样本数相差很大,有的数据集甚至有超过1000万个训练样本(例如翻译),因此将每个数据集的训练样例数量限制为30000个。

有的数据集几乎没有训练样本,例如CommitmentBank只有250个样本,为了防止这些数据集被边缘化,遵循样本比例混合方案(examples-proportional mixing schema),在最大混合率为3000的情况下,使用Adafactor优化器以3e-5的学习率,以8192的batch size对所有模型进行30000次梯度更新的微调。

微调过程中使用的输入和目标序列长度分别为1024和256。使用packing将多个训练样本组合成一个序列,使用特殊的序列结束标记将输入与目标分离。

谷歌的研究人员表示,这种指令调节(instruction tuning)通过教模型如何执行指令描述的任务来提高模型处理和理解自然语言的能力。

在FLAN对网页、编程语言、对话和维基百科文章的训练后,研究人员发现,该模型可以学习按照未经明确训练的任务进行操作,也就是说可以部分理解了自然语言的真实意图。尽管训练数据不如GPT-3的训练集“干净”,但FLAN仍然在问答和长文摘要等任务上超过了GPT-3。

即使在对生物医学数据进行预训练和微调后,研究者们还发现大的语言模型很难在问答、文本分类和识别上与更小的模型相媲美。

实验结果表明,在生物医学自然语言处理领域,多任务语言模型仍有很大的发展空间,很少有模型能够在少量训练数据可用的情况下有效地将知识转移到新任务。

这也可以归结为数据质量的问题。社区驱动项目EleutherAI的数据科学家Leo Gao的另一篇论文表明,训练数据中集中数据的管理方式会显著影响大型语言模型的性能。

Goodhart定律内容:当一个措施本身成为目标时,它就不再是一个好的措施。

(When a measure becomes a target, it ceases to be a good measure.)

参考资料:

https://arxiv.org/pdf/2109.01652.pdf

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
调查|ChatGPT爆火之后,做培训课的已经赚了几百万
年初至今,ChatGPT和AIGC无疑是市场上最火的话题,巨头布局,创业者涌入..
OpenAI遭起诉:训练ChatGPT,涉嫌窃取数百万用户信息
机器之心报道编辑:陈萍加州一家律师事务所表示,OpenAI 使用从网络上爬..
OpenAI的“困境”,微软的“老辣”,一笔足以“写进教材”的经典操作..
周三微软向全球展示了它在AI时代的统治地位。最新公布的财报显示,微软 ..
“万能生成器”GPT-3斩获NeurIPS最佳论文
GPT-3取得的成绩非常令人惊讶,将会在相关领域内造成深远的影响,并且有..
GPT-4发布!人工智能考试超过90%的人类,未来这8大职业咋办?..
能打败ChatGPT的是谁?2023年开春,无数人惊叹“ChatGPT”的出现点燃了科..
ChatGPT对基础教育是挑战or机遇?听!来自南山少年的声音..
2023-04-28 19:59来源:深圳晚报 链接已复制字体:小大4月25日下午,南山..
亚太是重灾区!超10万ChatGPT用户信息被盗,四成来自亚洲..
日前,一家总部位于新加坡的网络安全服务商Group-IB发布一份调查报告,该..
微软宣布全面开放必应聊天机器人,只需登录微软账户..
驱动中国2023年5月5日消息,当地时间周四,微软宣布向所有用户开放必应聊..
一周文化讲座|ChatGPT:潘多拉魔盒还是文明利器?
北京|毁灭和平:世界大战是如何打起来的?时间:3月10日(周五)19:00-2..
关于作者
重新开始(普通会员)
文章
395
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成187234 电子证书796 电子名片49 自媒体21062

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索