国产大模型推理能力已超GPT-3.5！冲进OpenAI评测榜第一梯队-脚本导航

> 自媒体 > （AI）人工智能 > 国产大模型推理能力已超GPT-3.5！冲进OpenAI评测榜第一梯队

国产大模型推理能力已超GPT-3.5！冲进OpenAI评测榜第一梯队

来源：量子位

2023-09-30 15:45:08

287

管理

唐璜发自凹非寺

量子位 | 公众号 QbitAI

OpenAI开源的数学数据集，中国厂商新成绩一举冲到最前列！

就在9月16日，国产大模型在权威推理评测集GSM8K中，首次达到了80%正确率，大幅领先GPT-3.5（57.1%）和LLaMA2-70B（56.8%）。

而且这家厂商在大模型榜单上刷新全球纪录，已经不是第一次了。

GPT-3.5答，Wendi需要在一天的最后一餐中给鸡崽子们喂21杯饲料。

看来第二局还是天工大模型赢了。

Round 3

问：巨龙高坐在法尔博山上，向1000英尺范围内的任何东西疯狂喷火。波莉可以将压制巨龙的武器投掷400英里，但当她拿着蓝宝石时，能比不拿宝石时把标枪扔得远三倍。

如果拿着宝石，波莉能站在龙焰射程之外多远的地方，用金标枪击中龙？

天工大模型给出的解题思路如下，并且生成答案为200英尺。

GPT-3.5给出的解题思路也摆在这，最后答案也是200英尺。

多个榜单跻身前列

除了GSM8K，另一个推理评测基准HumanEval，以及两个通识评测基准MMUL、C-Eval上，天工大模型也有出色表现。

而模型层之外，为大模型积攒实力的无外乎算法、算力、数据三大件。

算法层方面，天工大模型也有自己的秘籍。

通常来说，市面上大模型们普遍采用Transformer架构。在此基础上，天工团队首次引入了蒙特卡洛搜索树算法（AlphaGo背后也是这算法）。

再说天工大模型背后的算力，基于中国最大的GPU集群之一。

强劲算力鼎力支持的，是天文数字版的数据量——按照借助“开源力量”的策略，天工从数十万亿的数据中，最终清洗、筛选出了近3万亿单词的数据。

现在，天工大模型在推理、通识多个榜单开花，可以想见因为背后算力、算法、数据扎实储备，天工大模型拥有的已经不是模型规模优势，技术创新和推理性能方面，也有了新突破。

国产大模型绕不过的狠角色

其实，推理能力大幅超过GPT-3.5和LLaMA2，已经不是昆仑万维携天工大模型第一次拿成绩炸场。

不久之前，天工大模型多模态团队的Skywork-MM用了大约50M的图文数据，以远小于其他大模型的数据量（>100M），登顶了多模态榜单。

△MME感知榜第一，认知榜第二，总榜第一

昆仑万维另一则引得众人瞩目的新闻，是AI大牛颜水成的加入。

他出任天工智能联席CEO、2050全球研究院院长，将在新加坡、伦敦、硅谷三地建立2050全球研究院的研究中心，并逐步开展几个领域的研究：

下一代Foundation Model的基础研究和研发；Agent的研发和智能体进化的研究；生物智能等前沿技术领域的探索。

颜水成道出加盟昆仑万维的原因：

在通用人工智能领域，从研究、研发到产品是完整的链条，缺一不可，只有将三者完全打通，研究才能发挥最大价值。

在国内，能将研究、研发、产品三线合一的平台少之又少，昆仑万维布局了AI大模型、AI动漫、AI社交、AI游戏、AI搜索和AI音乐六大方向，同时昆仑万维的核心业务面向全球市场，其能力矩阵和生态系统非常具有想象空间。

大模型潮流，浩浩荡荡。

今年以来国产大模型的发展势头迅猛，吸引越来越多的人才加入其中，由此助力各家大模型不断地迭代升级，涌现出更强大的能力，适配更广泛的应用场景。

昆仑万维在大模型的变革中，战略重视，动作频频，而且也有业务场景。

可以不夸张地说一句，昆仑万维和它家的天工大模型，已经是大模型江湖中，一个绕不过去的狠角色了。

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

微软高估了Bing，低估了Open AI

2023-09-30 15:46

OpenAI推出新版ChatGpt，人工智能悄然走热，还能涨？

2023-09-30 15:38

相关文章

4S店关了，消费者权益不能随意“关”|荔枝时评

文/熊志（作者熊志，荔枝新闻特约评论员，资深评论人；本文系荔枝新闻客..

4S店现关停潮，消费者权益谁来保障？

“品牌授权已取消”“公司当前暂停营业”“已提出退网申请”……近期，部..

多地4s店迎来倒闭潮，他们可以一跑了之但消费者怎么办呢？..

最近，多地4S店倒闭潮的消息如惊雷般炸响，让汽车行业的从业者和广大消费..

二手车｜别克GL8：空间超大还保值！奶爸首选

随着二胎、三胎政策的放开，再加上生活水平的提升，越来越多的消费者在购..

二手车｜天籁：十一、二万，日系+中型+大沙发都有？..

十一、二万，你是选择一台紧凑型还是一台二手日系中型轿车？入门级车型更..

买新车贬值快\u0026#34;不划算\u0026#34;？这几款二手车开上几年不会亏，还..

既然买新车"吃亏"，那么二手车怎样呢？今天漫哥就跟大家推荐几款在一直保..

不敢买二手车？看完这些买前功课放心去买吧

[爱卡汽车淘二手车原创]随着近几年国内二手车行业的发展，相信大家也感..

选购二手车，先看这几点，新手避坑指南

哈喽，兄弟们！熟悉南哥的都知道，南哥自己买的车大多是都二手，比如天籁..

新能源二手车能不能买？三吱跑了1300公里告诉你答案

不知道大家有没有看过电影《飞驰人生》，自从看了这个电影，我一直想体验..

关于作者

月深沉(普通会员)

文章

744

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

05

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

2023/08/26

标签云

成员 网址收录40378 企业收录2981 印章生成224706 电子证书978 电子名片58 自媒体39806

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索