> 自媒体 > (AI)人工智能 > 微软的大模型太强了,数学推理超ChatGPT,论文、模型权重全公开
微软的大模型太强了,数学推理超ChatGPT,论文、模型权重全公开
来源:机器之心Pro
2023-08-22 16:17:24
438
管理

机器之心报道

编辑:陈萍

有了这项研究,大模型的数学能力更强了。

上周,微软与中国科学院联合发布的 WizardMath 大模型火了。

该模型有 70B、13B、7B 三个参数规模,研究者在两个数学推理基准 GSM8k 和 MATH 上的测试表明,WizardMath 优于所有其他开源 LLM,达到 SOTA。

在 GSM8K 上,WizardMath-70B-V1.0 模型的性能略优于一些闭源 LLM,包括 ChatGPT 3.5、Claude Instant 1 和 PaLM 2 540B。

WizardMath-70B-V1.0 模型在 GSM8k 基准测试中达到 81.6 pass@1,比 SOTA 开源 LLM 高出 24.8 分。

WizardMath-70B-V1.0 模型在 MATH 基准测试中达到 22.7 pass@1,比 SOTA 开源 LLM 高出 9.2 分。

监督微调:继 InstructGPT 之后,该研究还使用了监督指令 - 响应对进行微调,其中包含:

为了使每个步骤的解析都更加容易,该研究使用 Alpha 版本的 WizardLM 70B(微调的 Llama 模型)模型对 GSM8k 和 MATH 重新生成了 15k 个答案,以 step-by-step 方式生成解决方案,然后找出正确答案,并使用这些数据对基础 Llama 模型进行微调。该研究还从 WizardLM 的训练数据中采样了 1.5k 个开放域对话,然后将其与上述数学语料库合并作为最终的 SFT ( supervised fine-tuning )训练数据。

Evol-Instruct 原则:受 WiazrdLM 提出的 Evol-Instruct 方法及其在 WizardCoder 上有效应用的启发,该研究试图制作具有各种复杂性和多样性的数学指令,以增强预训练 LLM。具体来说:

向下进化:首先是增强指令,通过使问题变得更加容易来实现。例如,i):将高难度问题转化为较低难度,或 ii) 用另一个不同主题制作一个新的更简单的问题。向上进化:源自原始的 Evol-Instruct 方法,通过 i)添加更多约束,ii)具体化,iii)增加推理来深化并产生新的更难的问题。

Reinforced Evol-Instruct :受 InstructGPT 和 PRMs 的启发,该研究训练了两个奖励模型,分别用来预测指令的质量和答案中每一步的正确性。

实验及结果

该研究主要在 GSM8k 和 MATH 这两个常见的数学基准上测试了模型的性能,并使用大量基线模型,包括闭源模型:OpenAI 的 GPT-3、GPT-3.5、ChatGPT、GPT-4,谷歌的 PaLM 2、PaLM、 Minerva,Anthropic 的 Claude Instant、Claude 1.3、Claude 2, DeepMind 的 Chinchilla;开源模型:Llama 1、Llama 2、GAL、GPT-J、GPT-Neo、Vicuna、MPT、Falcon、Baichuan、ChatGLM、Qwen 和 RFT。

与闭源模型的比较。在表 1 中,WizardMath 70B 稍微优于 GSM8k 上的一些闭源 LLM,包括 ChatGPT、Claude Instant 和 PaLM 2 540B。

如图 2 所示(见上文),WizardMath 目前在所有模型上排名前五。同时,WizardMath 70B 在 MATH 上也超越了 Text-davinci-002。详细结果如下:

WizardMath 13B 在 GSM8k 上优于 PaLM 1 540B(63.9 vs 56.5)、Minerva 540B(63.9 vs 58.8)和 GPT-3.5(63.9 vs 57.1)。同时,它在 MATH 上超越了 PaLM 1 540B(14.0 vs. 8.8)、GPT-3 175B(14.0 vs. 5.2)。

WizardMath 70B 在 GSM8k 上实现了与 Claude Instant(81.6 vs 80.9)、ChatGPT(81.6 vs 80.8)和 PaLM 2(81.6 vs 80.7)更好或相当的性能。同时,WizardMath 70B 在 MATH 基准测试中也超过了 Text-davinci-002(22.7 比 19.1)。

与开源模型的比较。表 1 中所示的结果表明,WizardMath 70B 在 GSM8k 和 MATH 基准测试中明显优于所有开源模型。详细结果如下:

WizardMath 7B 超越了大多数开源模型,这些模型的参数数量约为 7B 到 40B 不等,包括 MPT、Falcon、Baichuan-chat、Vicuna v1.3、ChatGLM 2、Qwen、Llama 1 和 Llama 2 。尽管它的参数数量要少得多。

WizardMath 13B 在 GSM8k 上明显优于 Llama 1 65B(63.9 vs. 50.9)和 Llama 2 70B(63.9 vs. 56.8)。此外,它在 MATH 上的表现远远优于 Llama 1 65B(14.0 vs. 10.6)和 Llama 2 70B(14.0 vs. 13.5)。

WizardMath 70B 在 GSM8k 上超越了 Llama 2 70B(81.6 比 56.8),提升达到 24.8%。同时,它在数学方面也比 Llama 2 70B(22.7 比 13.5)高出 9.2%。

表 2 显示了 WizardMath 70B 模型在 MATH Subtopics上的结果。

2
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
“中国汽车出口猛增,正席卷全球”
【文/观察者网 熊超然】当地时间9月6日,《纽约时报》以“中国的汽车正席..
有人年赚百万 汽车出海涌现“零公里二手车”
经济观察报 记者 王帅国 在中国汽车出口连年增长的大背景下,二手车出口..
大佬爆赞!余承东邀请周鸿祎体验享界S9 新车豪华美学拉满..
【CNMO科技消息】一年一度的2024粤港澳大湾区车展已经正式揭幕,亮点太多..
深蓝G318解决了方盒子SUV的痛点?看喵哥试驾,你说该卖多少钱..
最近这几年,随着户外露营的兴起,方盒子已经很火了。经常有朋友跟喵哥讲..
多家车企又降价促销了,特斯拉、小鹏等车,最高下调15.1万..
大家都知道,9月份是车市传统销售旺季,消费者购车热情普遍较高,而车企..
丰田汽车全球产销量连续三个月下滑,汽车之王丰田该咋办?..
在世界汽车的江湖之中,丰田汽车可以说是绝对的王者,甚至多年雄踞世界汽..
昔日销冠跌出前十,长城汽车魏建军的焦虑与反思
赵永坡也在社交平台上介绍:“哈弗H6车型是国内最早一批可以实现OTA升级..
汽车资讯∣上汽大众全新途观L PRO上市;丰田新款皇冠陆放上市..
◆ 上汽大众途观L PRO售价23.68万元起5月30日,上汽大众全新途观L PRO正..
汽车电瓶能用几年?瓦尔塔、骆驼、风帆怎么选?一次性给你讲清楚..
咱们汽车上都有一个小电瓶,这个小电瓶的作用就是用来启动发动机的,一旦..
关于作者
有点醉(普通会员)
文章
1107
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40404 企业收录2983 印章生成239719 电子证书1065 电子名片60 自媒体61027

@2022 All Rights Reserved 浙ICP备19035174号-7
2
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索