5、代码生成(Code generation)
基于编程代码开源数据集HumanEval和小型数据集MBPP,被评估的模型将会收到几个句子中的程序描述以及输入输出实例,然后生成一个符合描述并能够完成测试的Python程序。
对于拥有相似参数的模型,LLaMA优于其他通用模型。
6、大规模多任务语言理解(Massive Multitask LanguageUnderstanding)
这一数据集基准涵盖人文科学、STEM、社会科学等各种知识领域的多项选择题。
经比较,研究人员发现,拥有650亿参数的LLaMA在大多数领域平均落后于拥有700亿参数的Chinchilla和拥有5400亿参数的PaLM几个百分点。
研究人员猜测,其中一个可能的原因是,他们在训练前使用的数据集较为有限,包括177GB大小的ArXiv、Gutenberg和Books3,而其余模型的训练数据足有2TB大小。
7、训练期间的能力进化(Evolution of performance during training)
在训练过程中,研发人员跟踪了LLaMA在一些问题回答和常识性基准上的表现,其都保持稳步提高。
不过针对于相关数据集的评估,研究人员认为其存在许多性能差异,该基准的结果并不可靠。
三、去年曾发布Galactica大模型,但因偏见和造假火速下架关于大模型的研究如今在AI领域十分火热。其基本原理就是通过获取新闻、社交媒体或其他互联网资源上的文本,来训练软件,使得基于大模型生成的产品可以在用户给出提示或查询搜索时自行预测和生成内容,其目前最直观的例子就是最近爆火的聊天机器人ChatGPT。
也正由于这一现象级消费级应用的推动,使得科技巨头开始构建基于大模型的产品测试,并将生成式AI视作新竞争领域。
年初,微软向聊天机器人ChatGPT的创造者OpenAI投资了数十亿美元,随后,微软推出了其ChatGPT版新Bing搜索引擎。谷歌很快也加入竞赛,该公司基于其大型语言LaMDA推出类似的对话式AI应用程序Bard。
去年5月,Meta也曾发布了拥有1750亿参数的OPT大型语言模型,这一模型的适用对象也是开发人员,是生成其聊天机器人BlenderBot的基础模型。半年后,Meta推出名为Galactica的语言模型,该模型可以撰写科学文章并解决数学问题,但在推出三天后,这一模型就因经常胡言乱语以及给出虚假信息被撤下。
国外投资机构DA Davidson高级软件分析师Gil Luria认为:“Meta今天的公告似乎是测试他们生成式AI能力的一步,这样他们就可以在未来将它们应用到产品中。”
他还补充道:“生成式AI作为AI的一种新应用,Meta对此经验较少,但显然对其未来的业务很重要。”
结语:生成式AI竞赛不断升温大型语言模型已经在生成创意文本、解决数学问题、预测蛋白质结构、回答阅读理解问题等方面展示出了巨大的潜力,如今ChatGPT的发布使得其在消费级应用市场中爆发。
继微软、谷歌之后,Meta也试图在这一领域展现自己的技术优势。
在科技大厂纷纷亮出生成式AI商用计划之时,Meta难得地聚焦在研究贡献上,无论是用更多数据训练出的更少参数规模模型实现优于更大参数规模模型的研究成果,还是将LLaMA模型和权重开源开放,都令人感到耳目一新。
但也由于仅限于研究用途,这可能导致Meta短期内难以在生成式AI领域形成像OpenAI、谷歌那样的影响力。
相关文章
猜你喜欢