> 自媒体 > (AI)人工智能 > 达摩院发布大模型测试基准:GPT-4勉强及格,其他模型悉数落败
达摩院发布大模型测试基准:GPT-4勉强及格,其他模型悉数落败
来源:机器之心Pro
2023-07-10 11:40:25
597
管理

机器之心专栏

机构:达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目。

随着大模型的发展,尤其是近来各种开源大模型的发布,如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型,从而可以测试模型的知识及推理能力。例如对于英文模型,MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的,最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型,特别是中文模型的表现。

这样的测试基准对于促进模型的发展起着至关重要的作用,然而对于多语言 / 多模态大模型,相应的评测依然是一片空白。由此,阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展,论文和数据代码已公开:

可以看到,即使是根据准确的翻译(上图的英文翻译由泰语母语者提供),但没有对应的语言、文化常识也无法作答,体现出对模型多语言能力的充分测试。

多模态测试

我们也选取了多个多模态大模型并对其进行测试,包括 Fromage, OpenFlamingo, BLIP-2, InstructBLIP,结果如下图所示:

可以看到出人意料的是,从较低的教育阶段到更高阶段,模型效果并没有呈现显著下降。奇怪的是基本所有模型都在中等阶段的问题上表现最好。然而对于人类来说,例如在中国,如果能在高考中得到 70% 左右的正确率,解决小学考题应该是轻而易举的事情,然而对模型来说似乎并不如此。

这个观察给我们带来的启发是,不断用更困难的数据去测试模型不一定能最大限度衡量出模型的差异。如果想要可靠地在实际生活中使用模型,例如用于 AI 教育,研究为什么模型会在基础问题上犯错可能更有价值。

结语

这篇文章介绍了我们新创建的测试基准 M3Exam,目标是可以为多语言 / 多模态大模型的评价提供一个可靠的基准。从目前的测试结果我们可以看出,虽然不少模型在高资源语言例如英文甚至中文上已经可以取得还不错的效果,但在多语言情况下绝大部分模型的效果都差强人意。多模态模型的效果则更难令人满意,显示目前的多模态模型还只能对图片的简单特征进行捕捉,而无法捕捉更精确的细节。我们期待 M3Exam 未来可以帮助相关模型的开发迭代,从而将大模型的便利带给所有语言的使用者以及更丰富的使用场景。

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
不堪入目,53岁女子出轨27岁男子的聊天记录令人震惊
据最新爆料,一起令人震惊的婚外情事件近日在社交媒体上引起了广泛关注。..
ChatGPT在各行各业发挥巨大潜力 解锁人工智能日常生活中无限可能..
ChatGPT是一种先进的人工智能助手,融合了最前沿的自然语言处理技术和强..
首个开源MoE大模型发布!GPT-4同款架构,来自欧洲的OpenAI..
梦晨 发自 凹非寺量子位 | 公众号 QbitAI“取消今晚所有计划!”,许多AI..
图像分割领域的GPT-4.0,分割一切的AI算法:Segment Anything..
一、图像分割领域的GPT-4.0大家好,我是千与千寻,今天给大家介绍的AI算..
地平线余凯:ChatGPT“狂飙”,为何自动驾驶迟迟没来?..
地平线创始人&CEO 余凯2022年11月,OpenAI宣布了最新的大语言预训练模型..
突发!OpenAI CEO宣布停止ChatGPT付费账号注册 数万人受影响..
快科技11月15日消息,今天上午,OpenAI首席执行Sam Altman在社交平台上宣..
聊天交友软件“美女”主动搭讪,只要下载APP就能“赤身相见”?..
“夏季行动”期间,市民张先生向上海市公安局徐汇公安分局报警称,其在家..
找不到话题?十种聊天技巧助你增进恋人间的亲密感!..
据调查显示,许多人在恋爱中都会遇到“没话说”的尴尬局面。而好的聊天技..
架设游戏“私服”赚钱,抓!
来源:新余网警 当下 我们的工作生活 已经离不开互联网 日新月异的信息技..
关于作者
快乐的老范..(普通会员)
文章
543
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216707 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索