> 自媒体 > (AI)人工智能 > 训练成本不到1000元!NUS、清华:轻松定制类GPT-4多模态大模型
训练成本不到1000元!NUS、清华:轻松定制类GPT-4多模态大模型
来源:新智元
2023-05-24 13:56:17
767
管理

编辑:LRS 好困

【新智元导读】最近的多模态(对话)大模型将基于文本的ChatGPT的强大能力扩展到了多模态输入,实现强大的多模态语义理解,比如GPT-4、BLIP-2、Flamingo等。但咱们普通玩家训练一个多模态GPT代价非常昂贵。来自于新加坡国立大学和清华大学的研究工作提出一个VPGTrans框架,帮助小伙伴们实现极低成本训练一个高性能多模态大模型。

今年是AI技术爆发式发展的一年,以ChatGPT为代表的大语言模型(LLM)大火。

语言模型除了在自然语言领域显示出巨大的潜力之外,也开始逐渐辐射到其他模态,比如文生图模型Stable Diffusion的背后也需要语言模型。

从头开始训练一个视觉-语言模型(VL-LLM)往往需要消耗大量的资源,所以现有的解决方案都是把语言模型和视觉提示生成模型(Visual Prompt Generator, VPG)连接起来,但即便如此,继续调整VPG仍然需要几千个GPU小时和数百万的训练数据。

最近,来自新加坡国立大学和清华大学的研究人员提出了一个解决方案VPGTrans,将现有的VPG迁移到现有的VL-LLM模型中,就能以低成本的方式获得目标VL-LLM模型。

论文链接:https://arxiv.org/abs/2305.01278

代码链接:https://github.com/VPGTrans/VPGTrans

多模态对话模型Demo:https://vpgtrans.github.io/

作者:张傲,费豪,姚远,吉炜,黎力,刘知远,Chua Tat-Seng

单位:新加坡国立大学,清华大学

文章的主要创新点包括:

1. 极低训练成本:

通过我们提出的VPGTrans方法,可以快速(少于10%训练时间)将已有的多模态对话模型的视觉模块迁移到新的语言模型,且达到类似或更优效果。

比如,相比于从头训练视觉模块,我们可以将BLIP-2 FlanT5-XXL的训练开销从19000 人民币缩减到不到1000元:

图2:VL-Vicuna的交互实例

一、动机介绍

1.1 背景

LLM在多模态理解领域掀起了一股从传统预训练视觉语言模型(VLM)到基于大语言模型的视觉语言模型(VL-LLM)的变革。

通过为LLM接入视觉模块,VL-LLM可以继承已有LLM的知识,零样本泛化能力,推理能力和规划能力等。相关模型有BLIP-2[1],Flamingo[2],PALM-E等。

图4:VPG迁移: 跨LLM大小迁移和跨LLM类型迁移

如图4所示,我们主要探索了两种类型的VPG的迁移:

(1)跨LLM大小迁移(TaS):比如从OPT-2.7B到OPT-6.7B。

(2)跨LLM类型迁移(TaT):比如从OPT到FlanT5。

其中TaS的意义在于:在LLM相关科研中,我们通常需要在小LLM上调参,再扩展到大LLM。有了TaS,我们可以在调参之后,把小LLM上已经训好的VPG直接迁移到大LLM上。

TaT的意义在于:不同功能种类的LLM层出不穷,比如今天有了LLaMA,明天又有了Alpaca和Vicuna。TaT可以让我们利用已有的VPG快速为新语言模型添加视觉感知能力。

1.3 贡献

(1)提出高效的方法:

我们首先通过一系列的探究实验,探究了影响VPG迁移效率的关键因素。根据探索实验发现,我们提出了一个两阶段的高效迁移框架VPGTrans。该框架可以大幅度缩减训练VL-LLM所需的计算开销和需要的训练数据。

比如,相比于从头训练,我们通过BLIP-2 OPT-2.7B到6.7B的VPG迁移,可以仅用大约10%的数据和计算时间就达成各个数据集相似或更好的效果(图1)。训练花销从17901人民币到1673元。

(2)得到有趣的发现:

我们同时提供了TaS和TaT场景下一些有趣的发现,并尝试给出解释:

a) TaS场景下,使用VPGTrans从小到大迁移不会影响最终模型效果。

b) TaS场景下,越小的语言模型上训练的VPG,迁移到大模型时效率越高,最终效果越好。

c) TaT场景下,越小的模型之间迁移的gap越大。在我们验证实验中,OPT350M和FlanT5-base使用VPGTrans互相迁移几乎和从头训练一样慢。

(3)开源:

我们使用VPGTrans得到了两个新的VL-LLMs:VL-LLaMA和VL-Vicuna,并开源在了社区上。其中VL-Vicuna实现了类GPT4的高质量的多模态对话。

二、高效率的VPG迁移方案:VPGTrans

首先我们进行一系列的探索验证实验,分析如何最大化对于VPG的迁移效率。接着我们基于这些重要观察提出一个解决方案。

2.1 探究实验

我们选取BLIP-2架构作为我们的基础模型,预训练语料采用COCO和SBU,总共1.4M图文对。

下游任务采用COCO Caption, NoCaps, VQAv2, GQA和OK-VQA的zero-shot设定进行评测(对caption任务并非严格zero-shot)。下面是我们的关键发现:

(1)直接继承一个训练好的VPG可以加速收敛,但效果有限:

我们发现,直接迁移一个LLM上训练好的VPG到大LLM可以加速模型收敛,但加速效果有限,且收敛后模型效果相比于从头训练VPG会掉点(图5的VQAv2、GQA蓝线最高点均低于橘线)。

我们猜测,这个掉点是由于随机初始化的projector会在训练起始阶段损伤VPG中已有的视觉感知能力。

上的projector融合作为projector的初始化。

通过这个初始化,我们可以将projector的warm-up训练由3个epoch减为2个epoch。

(4)projector可以在超大学习率下快速收敛:

我们进一步实验发现,projector由于其参数量较少,可以使用5倍的正常学习率进行训练而不崩溃。

通过5倍学习率的训练,projector warm-up可以进一步被缩短到1个epoch。

(5)一个附加发现:

虽然projector warm-up很重要,但仅训练projector是不够的。尤其在caption任务上面,仅仅训练projector的效果要比同时训练VPG的效果差一截(图5绿线在COCO Caption和NoCaps均远低于蓝线)。

这也就意味着,仅仅训练projector会导致欠拟合,也就是无法充分对齐到训练数据。

2.2 我们所提出的方法

图7:VPGTrans框架: (1) 一阶段:projector的warm-up (2) 二阶段: 整体微调

如图7所示,我们的方法共分为两个阶段:

(1)第一阶段:我们首先使用词向量转化器和原有projector进行融合作为新projector的初始化,然后用5倍学习率训练新projector一个epoch。

(2)第二阶段:直接正常训练VPG和projector。

三、实验结果

3.1 加速比

表2:真实场景下的大规模实验结果

如表2所示,我们的VPGTrans在大规模场景下依然有效。通过OPT-2.7B到OPT-6.7B的迁移,我们仅用10.8%的数据和不到10%的训练时长达到了相似或更优的效果。

尤其是,我们的方法在BLIP-2以FlanT5-XXL为基座的VL-LLM实现了4.7%的训练成本控制。

四、定制您的VL-LLMs

我们的VPGTrans可以快速为任意新的LLMs添加视觉感知模块,从而得到一个全新的高质量VL-LLM。在本工作,我们额外训练了一个VL-LLaMA和一个VL-Vicuna。其中VL-LLaMA的效果如下:

表3:VL-LLaMA的效果展示

同时,我们的VL-Vicuna可以进行类GPT-4的多模态对话。我们和MiniGPT-4进行了简单的比较:

五、总结

在这项工作中,我们对VPG在LLM之间的可迁移性问题进行了全面调查。我们首先探讨了最大化迁移效率的关键因素。

基于关键观察,我们提出了一种新颖的两阶段迁移框架,即VPGTrans。它可以在显著降低训练成本的同时,实现相当或更好的性能。

通过VPGTrans,我们实现了从BLIP-2 OPT 2.7B到BLIP-2 OPT 6.7B的VPG迁移。相较于从零开始连接VPG到OPT 6.7B,VPGTrans仅需10.7%训练数据和不到10%的训练时长。

此外,我们展示并讨论了一系列有趣发现及其背后的可能原因。最后,我们通过训练VL-LLaMA和LL-Vicuna,展示了我们的VPGTrans在定制新的VL-LLM方面的实际价值。

参考资料:

https://arxiv.org/abs/2305.01278

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
马上评|山寨版ChatGPT横行,又到收智商税的时候了
随着聊天机器人ChatGPT火爆全球,国内也涌现了一批名字中包含“ChatGPT”..
OpenAI CEO国会首秀:呼吁美国政府对 AI 制定规范,重申GPT-5半年内不会发..
OpenAI CEO Sam Altman在美国参议院听证会的直播截图美国国会正就监管人..
语音平台伴伴被曝涉赌被查,知情人称平台或将换“马甲”..
据媒体5月25日报道,语音聊天交友平台伴伴国内公司账户遭冻结,已拖欠员..
要想用好ChatGPT,你还要知道这些
此文章由ChatGPT协助完成,成稿只用了半个小时左右。前段时间ChatGPT引爆..
AI聊天机器人,科技巨头的新必争之地?
ChatGPT就像是AI圈里的一枚深水炸弹,引发的震动已经逐渐蔓延到了各行各..
聊天交友软件常用骗局(套路)交友需小心!
随着科技的发展,聊天交友软件越来越普及,成为人们交友、找伴侣的重要..
行业大模型也不稳?仅利用提示词GPT-4就超越了专业领域模型..
微软在早在三月份就分享了一项研究《Capabilities of GPT-4 on Medical C..
对于人工智能,人类确实需要敬畏心!ChatGPT之父的警告值得重视..
#5月财经新势力#ChatGPT之父的警告值得重视作为Open AI的CEO,Sam Altman..
莆田版GPT-3开源:同等复现预训练模型GPT Neo
Eleuther AI也表示,未来会进一步开源10B版本和原始大小版本的GPT3模型参..
关于作者
唐师(普通会员)
文章
567
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216705 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索