图注:Percy Liang et al. Holistic Evaluation of Language Models
要消解这种尴尬局面,需要各个领头羊们开源开放自家的优质大模型,这样大模型领域的整体进展才能更快地上一个台阶。
在大模型的产业落地方面,开源更是一条必经之路。
若以GPT-3的发布为起点,大模型经过两年多的你追我赶,在研发技术上已经较为成熟,但在全球范围内,大模型的落地都还处于早期阶段。国内各个大厂所研发的大模型固然有内部业务的落地场景,但整体上尚未有成熟的商业化模式。
在大模型落地正处蓄势待发之时,做好开源能够为将来大规模的落地生态打好基础。
大模型的本质决定了落地对开源的需求。阿里巴巴达摩院副院长周靖人告诉AI科技评论,「大模型是对人类知识体系的抽象与提炼,所以它能够应用的场景和产生的价值是巨大的。」而只有通过开源,大模型的应用潜力才能在众多有创造力的开发者那里得到最大限度的释放。
这是封闭了大模型内部技术细节的API模式所无法做到的。首先,这种模式的适用对象是低开发能力的模型使用者,对他们而言,大模型落地的成败相当于完全掌握在研发机构的手中。
以提供大模型API付费服务的最大赢家OpenAI为例,据OpenAI的统计,目前全世界已经有300多个使用了GPT-3技术的应用程序,但这个事实的前提是OpenAI的研发实力底气足、GPT-3也足够强大。如果模型本身性能不佳,那么这类开发者也就束手无策了。
更关键的是,大模型通过开放API所能提供的能力有限,难以承接复杂多样的应用需求。目前在市场上只是催生出一些具有创意的APP,但整体上还处于一种「玩具」的阶段,远没有达到大规模产业化的地步。
「产生的价值没有那么大,成本又收不回来,所以基于GPT-3 API的应用场景非常受限,很多工业界的人其实并不认可这种方式。」张家兴说道。的确,像国外的copy.ai、Jasper这些公司是选择做AI辅助写作业务,用户市场相对更大,所以才能产生比较大的商业价值,而更多应用还只是小打小闹。
相比之下,开源开放做的是「授人以渔」。
在开源模式下,企业凭借公开的源代码,在已有的基础框架上进行符合自己业务需求的训练、二次开发,这能够发挥大模型的通用性优势,释放远超于现在的生产力,最终带来大模型技术在产业中的真正落地。
作为目前大模型商业化落地最清晰可见的一条赛道,AIGC的这一波起飞已经印证了大模型开源模式的成功,然而在其他更多应用场景上,大模型的开源开放仍属少数,国内外皆是如此。西湖大学深度学习实验室的负责人蓝振忠曾向AI科技评论表示,目前大模型的成果虽然有很多,但开源极少,普通研究者的访问有限,这一点很令人惋惜。
贡献、参与、协作,以这些关键词为核心的开源,能够汇聚大量怀抱热情的开发者,共同打造一个可能具有变革意义的大模型项目,让大模型更快地从实验室走向产业。
——3——不可承受之重:算力
大模型开源的重要性是共识,但通往开源的路上还有一个巨大的拦路虎:算力。这也正是当前大模型落地所面临的最大挑战。即便Meta开源了OPT,但到目前为止它似乎还没有在应用市场上泛起大的涟漪,究其根本,算力成本仍然是小型开发者的不可承受之重,先不说对大模型做微调、二次开发,仅仅是做推理都很困难。正因如此,在对拼参数的反思潮下,不少研发机构转向了做轻量模型的思路,将模型的参数控制在几亿至几十亿之间。澜舟科技推出的「孟子」模型、IDEA研究院开源的「封神榜」系列模型,都是国内走这条路线的代表。他们将超大模型的各种能力拆分到参数相对更小的模型上,已经在一些单项任务上证明了自身超越千亿模型的能力。但毫无疑问,大模型的路必然不会就此停下,多位业内专家都向AI科技评论表示,大模型的参数依然有上升空间,肯定还要有人去继续探索更大规模的模型。所以我们不得不直面大模型开源后的窘境,那么,有哪些解决办法?我们首先从算力本身的角度来考虑。未来大规模计算机群、算力中心的建设肯定是一个趋势,毕竟端上的计算资源终归难以满足需求。但如今摩尔定律已经趋缓,业界也不乏摩尔定律将要走向终结的论调,如果单纯地寄希望于算力的提升,是远水解不了近渴。「现在一张卡可以跑(就推理而言)一个十亿模型,按目前算力的增长速度,等到一张卡可以跑一个千亿模型也就是算力要得到百倍提升,可能需要十年。」张家兴解释。大模型的落地等不了这么久。另一个方向是在训练技术上做文章,加快大模型推理速度、降低算力成本、减少能耗,以此来提高大模型的易用性。比如Meta的OPT(对标GPT-3)只需要16块英伟达v100 GPU就可以训练和部署完整模型的代码库,这个数字是GPT-3的七分之一。最近,清华大学与智谱AI联合开源的双语大模型GLM-130B,通过快速推理方法,已经将模型压缩到可以在一台A100(40G*8)或V100(32G*8)服务器上进行单机推理。在这个方向上努力当然是很有意义的,大厂们不愿意开源大模型一个不言自明的原因,就是高昂的训练成本。此前有专家估计,GPT-3的训练使用了上万块英伟达v100 GPU,总成本高达2760万美元,个人如果要训练出一个PaLM也要花费900至1700万美元。大模型的训练成本若能降下来,自然也就能提高他们的开源意愿。但归根结底,这只能从工程上对算力资源的约束起到缓解作用,而并非终极方案。尽管目前许多千亿级、万亿级的大模型已经开始宣传自己的「低能耗」优势,但算力的围墙仍然太高。最终,我们还是要回到大模型自身寻找突破点,一个十分被看好的方向便是稀疏动态大模型。稀疏大模型的特点是容量非常大,但只有用于给定任务、样本或标记的某些部分被激活。也就是说,这种稀疏动态结构能够让大模型在参数量上再跃升几个层级,同时又不必付出巨大的计算代价,一举两得。这与GPT-3这样的稠密大模型相比有着极大的优势,后者需要激活整个神经网络才能完成即使是最简单的任务,资源浪费巨大。谷歌是稀疏动态结构的先行者,他们于2017年首次提出了MoE(Sparsely-Gated Mixture-of-Experts Layer,稀疏门控的专家混合层),去年推出的1.6万亿参数大模型Switch Transformers就融合了MoE风格的架构,训练效率与他们之前的稠密模型T5-Base Transformer相比提升了7倍。而今年的PaLM所基于的Pathways统一架构,更是稀疏动态结构的典范:模型能够动态地学习网络中的特定部分擅长何种任务,我们根据需要调用经过网络的小路径即可,而无需激活整个神经网络才能完成一项任务。
图注:Pathways架构
这本质上与人脑的运作方式类似,人脑中有百亿个神经元,但在执行特定任务中只激活特定功能的神经元,否则巨大的能耗是人难以承受的。大、通用,且高效,这种大模型路线无疑具有很强的吸引力。「以后有了稀疏动态的加持,计算代价就不会那么大,但是模型参数一定会越来越大,稀疏动态结构或许会为大模型打开一个新天地,再往十万亿、百万亿走也没问题。」张家兴相信,稀疏动态结构将是解决大模型尺寸与算力代价之间矛盾的最终途径。但他也补充说,在当下这种模型结构还未普及的情况下,再盲目将模型继续做大确实意义不大。目前国内在这个方向上的尝试还比较少,且不如谷歌做得更彻底。大模型结构上的探索创新与开源相互促进,我们需要更多开源来激发大模型技术的变革。阻碍大模型开源的,除了大模型的算力成本导致的低可用性,还有安全问题。对于大模型尤其是生成大模型开源后带来的滥用风险,国外担忧的声音似乎更多,争议也不少,这成了许多机构选择不开源大模型的凭据,但或许也是他们拒绝慷慨的一个借口。OpenAI已经因此招致了许多批评。他们在2019年发布GPT-2时就声称,模型的文本生成能力过于强大,可能会带来伦理方面的危害,因而不适合开源。一年后公开GPT-3时也仅仅提供了API试用,目前GPT-3的开源版本实际上是由开源社区自行复现的。
事实上,对大模型的访问限制反而会不利于大模型提高稳健性、减少偏见和毒性。Meta AI的负责人Joelle Pineau在谈到开源OPT的决定时,曾诚恳地表示,单靠自家团队解决不了全部问题,比如文本生成过程中可能产生的伦理偏见和恶意词句。他们认为,如果做足功课,就可以在负责任的情况下让大模型变得可以公开访问。
在防范滥用风险的同时保持开放获取和足够的透明度,这并非易事。作为打开了「潘多拉魔盒」的人,Stability AI享受了主动开源带来的好名声,但最近也遭遇了开源带来的反噬,在版权归属等方面引起了争议。开源背后的「自由与安全」这一古老的辩证命题由来已久,或许并没有一个绝对正确的答案,但是在大模型开始走向落地的当下,一个清楚的事实是:大模型开源,我们做得还远远不够。两年多过去,我们已经拥有了自己的万亿级别大模型,在接下来大模型从「读万卷书」到「行万里路」的转变过程中,开源是一个必然的选择。最近,GPT-4正呼之欲出,所有人都对它能力上的飞跃抱着极大的期待,但我们不知道,未来它能给多少人释放多大的生产力?(公众号:雷峰网)
参考资料:
1.https://arxiv.org/pdf/2211.09110.pdf
2.北京智源人工智能研究院《中国超大规模智能模型产业发展报告》
公众号:雷峰网
相关文章
猜你喜欢
成员 网址收录40395 企业收录2981 印章生成235373 电子证书1038 电子名片60 自媒体47038