ChatGPT编程准确率暴降13%！UIUC\u0026南大新基准让AI代码现原形了-脚本导航

> 自媒体 > （AI）人工智能 > ChatGPT编程准确率暴降13%！UIUC\u0026南大新基准让AI代码现原形了

ChatGPT编程准确率暴降13%！UIUC\u0026南大新基准让AI代码现原形了

来源：量子位

2023-05-15 17:07:40

439

管理

萧箫发自凹非寺

量子位 | 公众号 QbitAI

用ChatGPT写代码，已经是不少程序员的常规操作了。

△“至少提速3~5倍”

但你有没有想过，ChatGPT生成的代码，有不少只是“看起来准确”而已？

来自伊利诺伊大学香槟分校和南京大学的一项最新研究表明：

ChatGPT和GPT-4生成代码的准确率，比之前评估的至少要降低13%！

有网友感叹，太多ML论文都在用一些有问题或有局限性的基准来评估模型，来短暂地达到“SOTA”，结果换个测评方法就现出原形了。

属实是给AI们加大了考题难度。

基于这套方法，EvalPlus还做了一个改进版HUMANEVAL 数据集，增加输入的同时，修正了一些HUMANEVAL里面答案就有问题的编程题。

根据新的这套评估标准，大模型们的准确率平均下降了15%，其中比较广泛研究的CODEGEN-16B更是下降了超过18%。

至于ChatGPT和GPT-4生成代码的性能，也下降了至少13%。

不过，也有网友表示，大模型生成的代码效果没那么好，已经是“众所周知的事实”了，需要研究的是“为什么大模型写的代码不能用”。

作者介绍

共同一作Jiawei Liu，伊利诺伊大学香槟分校二年级博士生，研究兴趣是编程系统和深度学习。

共同一作Chunqiu Steven Xia，伊利诺伊大学香槟分校二年级博士生，本科毕业于多伦多大学，研究兴趣是机器学习和软件工程的交叉领域。

王宇峣（Yuyao Wang），南京大学计算机科学大三学生，研究兴趣是计算机系统的准确性、可编程性和性能。

Lingming Zhang，伊利诺伊大学香槟分校副教授，研究方向是软件工程及其与机器学习、编程语言和形式化方法（Formal Methods）的协同作用。

论文地址：https://arxiv.org/abs/2305.01210

代码地址：https://github.com/evalplus/evalplus

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

其他老师都在用ChatGPT辅助工作了，你还没用过？

2023-05-15 17:10

聊天 AI 大火，Stack Overflow 宣布临时禁止用 ChatGPT 回答问题

2023-05-15 17:05

相关文章

ChatAI：从Ai的角度，谈一下短视频爆火的底层逻辑

从AI的角度来看，短视频爆火的底层逻辑主要涉及以下几个方面：1. 简短易..

突然爆火的ChatGPT到底是什么

ChatGPT是由OpenAI开发的一款人工智能聊天机器人。OpenAI是一家致力于人..

局域网即时聊天工具都有哪些？

在互联网普及的今天，使用即时聊天工具沟通交流在人们的日常生活和工作当..

GPT-4惨遭削弱，偷懒摸鱼绝不多写一行代码，OpenAI已介入调查..

西风发自凹非寺量子位 | 公众号 QbitAIGPT-4再次遭网友“群攻”，原因..

OpenAI 为ChatGPT增加全新自定义指令功能

今天是2023年7月21日，距离全年结束还有163天。1990年7月21日，北京正负..

OpenAI官方发布GPT-4最强攻略第二课- 提供参考文本，击破AI幻觉..

OpenAI发布了GPT-4的官方使用指南，这可是一份大家期待已久的宝贵资料！..

OpenAI准备向其第一批次的百万个客户出售DALL-E服务

这是一个必要的解决方案，但却是一个肤浅的办法。OpenAI 通过筛选过滤用..

ChatGPT突然爆火，中国版本也要来了？

科技日报记者刘园园这段时间，一款名叫ChatGPT的人工智能聊天系统就像平..

ChatGPT4.0使用技巧：Prompt的通用原则与基础技巧

3. 上下文相关当设计Prompt时，请考虑上下文。一个好的Prompt应该与相关..

关于作者

呼唤(普通会员)

文章

393

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

聊天交友软件常用骗局（套路）交友需小心！

10个月前

02

微信聊天时，女人说“哼哼”，10个高情商回复

7个月前

03

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

8个月前

04

介绍一个能够免费使用国内chatgpt的插件wetab

2023/04/27

05

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

10个月前

标签云

成员 网址收录40329 企业收录2981 印章生成186839 电子证书796 电子名片49 自媒体20953

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索