让程序员「失业」的GPT-3又要来刷面试题了？这种题小编也会-脚本导航

> 自媒体 > （AI）人工智能 > 让程序员「失业」的GPT-3又要来刷面试题了？这种题小编也会

让程序员「失业」的GPT-3又要来刷面试题了？这种题小编也会

来源：新智元

2023-05-23 17:13:48

431

管理

来源：neowin

编辑：好困

【新智元导读】没想到吧，在席卷了无数头条之后，GPT-3又来了。这次为我们带来的表演竟然是做程序员的面试题，看来又有一波程序员要被「失业」了。

小编这两天看到一篇报道：「AI暂时还不会抢走程序员的工作，但是正在了」。

显然，这篇论文十分有吸引力，志同道合的朋友很快便做了十分有趣的评议。

对于这种看起来就很「标题党」的文章，还是很有必要点进来批判性地学习一下。

看了几百字的众所周知的背景介绍之后，发现原来是关于一篇论文的介绍：「用APPS衡量编码挑战能力」。

言归正传，其实回答上面这个问题很简单，论文在开篇便给出了一个示例：

APPS数据集与现有数据集的比较

为了验证模型给出的答案，数据集包含131836个测试用例和232444个人类编写的解决方案。

题目的难度分为：

入门级。具有1-2年经验就可以解决这些问题，且无需复杂的算法。例如计算子字符串的出现次数，或查找字符串是否是回文。

面试级。这类问题通常出现在有一定难度的技术面试中，其中涉及数据结构等。

竞赛级。这类问题通常出现在编程竞赛中，例如USACO，IOI和ACM。

如果模型在APPS上表现良好，这表明它具有灵活使用数据结构和编程技术的能力，以及正确理解各种任务说明，遵循并理解人的意图的能力。

GPT-2完胜GPT-3

论文中使用了GPT-2，GPT-3和GPT-Neo模型。因为GPT模型是自回归的，在文本生成方面十分适用。

由于原始的GPT-2模型只接受过自然语言的训练，因此论文使用GitHub的高星代码对其进行了预训练。

GPT-Neo具有类似于GPT-3的体系结构，但不同的是，GPT-Neo的权重是公开的，因此论文在APPS的训练集上对其进行了微调。

在预训练和微调中，论文使用了AdamW优化器，batch大小为256，权重衰减（weight decay）为0.05，并进行了10个epoch。在训练大型模型时，使用DeepSpeed及其ZeRO优化器来减少内存的消耗。

GPT-2表现不俗

https://codeforces.com/problemset/problem/1288/C

作者表示，这个GPT-2 1.5B的代码，虽然没有通过任何一个测试，但是乍一看还是很合理的。

既然GPT做不出来，而且小编估计很少有人看到这里，不如再来搞一下。首先，我们要import npy，然后就可以开始码代码了。

def two_arrays(n, m): list = [1] * (n 1) list[0] = 0 for i in range(2, m*2 1): for j in range(1, n 1): list[j] = (list[j] list[j-1]) % 1000000007 result = 0 for i in list: result = (result i) % 1000000007 return result

说了这么多GPT-2，那GPT-3又如何呢？

GPT-3非常拉垮

GPT-3仅解决了5000个问题中的3个：两个入门级问题和一个面试级问题。

其中，两个入门级的问题是诸如实现指定的代数表达式这类的简单任务。

而面试级问题明显需要更深层次的思考和推理，至于为什么GPT-3能完成，作者推断是模型在预训练过程中记住答案，或者是根据问题内容进行的猜测，并且还歪打正着了。

GPT-3经常会出现的语法错误，就比如说这个例子中的if-else。

作者说，虽然这个代码「reasonable」（似曾相识的形容），但是if-else的格式错误造成里语法错误。你跟老师讲我这个代码是合理的只是格式错了，看他打不打你。

相比之下，参数比GPT-3少了三个数量级的GPT-2 0.1B的语法错误反而更少，而GPT-Neo 2.7B则几乎没有语法错误。

虽然没有任何代码示例，但是GPT-Neo表现最好

不知道什么原因，论文中并没有明确的GPT-Neo生成的代码。

作者表示，模型的确可以生成一些能通过测试的代码，这也就意味着这些生成的程序没有语法错误，并且可以输出正确答案。对于入门级问题，GPT-Neo获得了最好的成绩，通过了大约15％的测试。

左图纵坐标为测试的正确率；右图纵坐标是语法错误的百分比；两者横坐标都是问题的难度，从左到右依次提高

与先前的工作侧重于从伪代码到代码的生成不同，本文的基准测试可以在给定的自然语言描述下，来衡量语言模型生成的python代码的质量。

通过利用具有质量保证，并且包括不同难度级别的数十万个测试用例和真实解决方案，本文创建了一个全面而严格的测试平台来评估模型。

本文用APPS评估了最新的生成模型，发现整体性能很低。但是，随着模型规模的增大，以及微调的引入，语法错误率便会呈指数趋势下降，比如GPT-Neo模型。

所以说，「微调」是个好东西。

网友表示：就这？

说到刷题，小编对此一无所知，

对此，网友的评价十分犀利，不仅质疑题目正确率完全无法证明模型学会了编程，更是认为模型除了虚假的关联性以外，什么都没学会。

虽然有一些跑得快的一天天的总想让程序员「失业」，但现在的GPT模型的确还无法担如此重任。可能还不如还是去写些文字，做做地下城的DM。

后记：文章拖了两天没发，结果突然发现微软似乎真的要引入GPT-3来实现自然语言编程了？

参考资料：

https://arxiv.org/pdf/2105.09938.pdf

https://github.com/hendrycks/apps

https://www.neowin.net/news/ai-wont-be-taking-up-software-engineering-jobs-any-time-soon-but-its-getting-there/

1

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

火爆全球的GPT-3，到底凭什么砸大家饭碗？

2023-05-23 17:15

GPT-4已发布！而我们文心一言还不及ChatGPT-3？那GTP-3水平咋样

2023-05-23 17:12

相关文章

实探香港车市：国产电动汽车积极布局站稳脚跟瞄准“出海”之路..

来源：证券时报资料来源：hkevdb.com 韩忠楠/摄周靖宇/制图从香港中环..

2024燃油SUV标杆，看第四代CS75 PLUS和星越L就够了

新能源汽车的渗透率屡创新高，但随着2款持续领跑中国车市多年燃油SUV产品..

欧美电车寒气对行业影响几何

02 需求低于预期增速跑输大盘欧美车企推迟电动化进程，无一例外都指向消..

半年车企排名：这才是真正的冰火两重天

作为传统的汽车消费淡季，6月份的上半年收官之战，汽车市场的行情表现确..

2024款新能源汽车投诉量大增，都是降价惹的祸？

价格“背刺” 消费者怨声载道除了质量问题，价格变动频繁、服务态度不好..

十家中国汽车行业企业进入财富世界500强：新能源车企攀升速度亮眼..

8月5日，2024年《财富》世界500强排行榜揭晓。今年，中国133家公司上榜，..

“数”说上半年我国汽车产销量成绩单新能源汽车驶上“快车道”..

央视网消息：中国汽车工业协会7月10日公布的最新数据显示，2024年上半年..

7月车企销量大盘点！比亚迪最猛，但这几个品牌跌不少........

而中国自主品牌车企能够持续稳定增长，离不开新能源汽车市场的爆发，成为..

7万—17万值得买的十款车

7-17万值得买的车，这里有10款。7万——比亚迪海鸥6.98万，比亚迪2025款..

关于作者

国务院环卫工..(普通会员)

文章

966

关注

0

粉丝

1

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

DeepSeek 究竟是个啥？一文带你看明白

1个月前

04

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

05

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

标签云

成员 网址收录40400 企业收录2981 印章生成237624 电子证书1052 电子名片60 自媒体52349

@2022 All Rights Reserved

浙ICP备19035174号-7

1

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索