> 自媒体 > (AI)人工智能 > 让程序员「失业」的GPT-3又要来刷面试题了?这种题小编也会
让程序员「失业」的GPT-3又要来刷面试题了?这种题小编也会
来源:新智元
2023-05-23 17:13:48
384
管理

来源:neowin

编辑:好困

【新智元导读】没想到吧,在席卷了无数头条之后,GPT-3又来了。这次为我们带来的表演竟然是做程序员的面试题,看来又有一波程序员要被「失业」了。

小编这两天看到一篇报道:「AI暂时还不会抢走程序员的工作,但是正在了」。

显然,这篇论文十分有吸引力,志同道合的朋友很快便做了十分有趣的评议。

对于这种看起来就很「标题党」的文章,还是很有必要点进来批判性地学习一下。

看了几百字的众所周知的背景介绍之后,发现原来是关于一篇论文的介绍:「用APPS衡量编码挑战能力」。

言归正传,其实回答上面这个问题很简单,论文在开篇便给出了一个示例:

APPS数据集与现有数据集的比较

为了验证模型给出的答案,数据集包含131836个测试用例和232444个人类编写的解决方案。

题目的难度分为:

入门级。具有1-2年经验就可以解决这些问题,且无需复杂的算法。例如计算子字符串的出现次数,或查找字符串是否是回文。

面试级。这类问题通常出现在有一定难度的技术面试中,其中涉及数据结构等。

竞赛级。这类问题通常出现在编程竞赛中,例如USACO,IOI和ACM。

如果模型在APPS上表现良好,这表明它具有灵活使用数据结构和编程技术的能力,以及正确理解各种任务说明,遵循并理解人的意图的能力。

GPT-2完胜GPT-3

论文中使用了GPT-2,GPT-3和GPT-Neo模型。因为GPT模型是自回归的,在文本生成方面十分适用。

由于原始的GPT-2模型只接受过自然语言的训练,因此论文使用GitHub的高星代码对其进行了预训练。

GPT-Neo具有类似于GPT-3的体系结构,但不同的是,GPT-Neo的权重是公开的,因此论文在APPS的训练集上对其进行了微调。

在预训练和微调中,论文使用了AdamW优化器,batch大小为256,权重衰减(weight decay)为0.05,并进行了10个epoch。在训练大型模型时,使用DeepSpeed及其ZeRO优化器来减少内存的消耗。

GPT-2表现不俗

https://codeforces.com/problemset/problem/1288/C

作者表示,这个GPT-2 1.5B的代码,虽然没有通过任何一个测试,但是乍一看还是很合理的。

既然GPT做不出来,而且小编估计很少有人看到这里,不如再来搞一下。首先,我们要import npy,然后就可以开始码代码了。

def two_arrays(n, m): list = [1] * (n 1) list[0] = 0  for i in range(2, m*2 1):    for j in range(1, n 1):      list[j] = (list[j]   list[j-1]) % 1000000007 result = 0  for i in list:    result = (result  i) % 1000000007  return result

说了这么多GPT-2,那GPT-3又如何呢?

GPT-3非常拉垮

GPT-3仅解决了5000个问题中的3个:两个入门级问题和一个面试级问题。

其中,两个入门级的问题是诸如实现指定的代数表达式这类的简单任务。

而面试级问题明显需要更深层次的思考和推理,至于为什么GPT-3能完成,作者推断是模型在预训练过程中记住答案,或者是根据问题内容进行的猜测,并且还歪打正着了。

GPT-3经常会出现的语法错误,就比如说这个例子中的if-else。

作者说,虽然这个代码「reasonable」(似曾相识的形容),但是if-else的格式错误造成里语法错误。你跟老师讲我这个代码是合理的只是格式错了,看他打不打你。

相比之下,参数比GPT-3少了三个数量级的GPT-2 0.1B的语法错误反而更少,而GPT-Neo 2.7B则几乎没有语法错误。

虽然没有任何代码示例,但是GPT-Neo表现最好

不知道什么原因,论文中并没有明确的GPT-Neo生成的代码。

作者表示,模型的确可以生成一些能通过测试的代码,这也就意味着这些生成的程序没有语法错误,并且可以输出正确答案。对于入门级问题,GPT-Neo获得了最好的成绩,通过了大约15%的测试。

左图纵坐标为测试的正确率;右图纵坐标是语法错误的百分比;两者横坐标都是问题的难度,从左到右依次提高

与先前的工作侧重于从伪代码到代码的生成不同,本文的基准测试可以在给定的自然语言描述下,来衡量语言模型生成的python代码的质量。

通过利用具有质量保证,并且包括不同难度级别的数十万个测试用例和真实解决方案,本文创建了一个全面而严格的测试平台来评估模型。

本文用APPS评估了最新的生成模型,发现整体性能很低。但是,随着模型规模的增大,以及微调的引入,语法错误率便会呈指数趋势下降,比如GPT-Neo模型。

所以说,「微调」是个好东西。

网友表示:就这?

说到刷题,小编对此一无所知,

对此,网友的评价十分犀利,不仅质疑题目正确率完全无法证明模型学会了编程,更是认为模型除了虚假的关联性以外,什么都没学会。

虽然有一些跑得快的一天天的总想让程序员「失业」,但现在的GPT模型的确还无法担如此重任。可能还不如还是去写些文字,做做地下城的DM。

后记:文章拖了两天没发,结果突然发现微软似乎真的要引入GPT-3来实现自然语言编程了?

参考资料:

https://arxiv.org/pdf/2105.09938.pdf

https://github.com/hendrycks/apps

https://www.neowin.net/news/ai-wont-be-taking-up-software-engineering-jobs-any-time-soon-but-its-getting-there/

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
道德沦丧!师范大学某书记和已婚妇女大尺度聊天,底线没了..
据最新报道,安庆师范大学近日曝出一起道德问题事件,一位书记与一名已..
微信打开这个开关,立马知道两人关系不一般,防被骗..
赶快打开这个功能,就能用自己的手机看到对方的聊天记录,知道他和谁关系..
这种群,千万别进!
案件回顾近日,标题为“网传济南女生被欺凌”,内容为几名女生殴打并侮辱..
陶哲轩:我用GPT-4辅助证明不等式定理,论文还会上传arXiv..
机器之心报道编辑:杜伟陶哲轩可太喜欢 GPT 系列大语言模型了!近几个月..
我们向GPT-3问了15908个问题,终于发现了它的真面目
作者 | 陈大鑫、青暮当从静止状态放下一个球时,它会以9.8 m /s²的加速..
警惕!有人盯上你的微信号了!
近日,江苏省泰州市公安局海陵分局京泰派出所接到李女士报警,称其女儿手..
Chat GPT人工智能给了我这一些经营建议,大家是什么看法?..
我问:经营的本质就是“引导消费,创造顾客”。这势必会产生在经营过程中..
夫妻日常聊天时,怎么聊才能够增进感情呢?多关注这些细节..
我相信大多数人在热恋期的时候,一定恨不得一整天都粘在一起,两个人有着..
ChatGPT的替代品来了!HuggingChat号称媲美GPT-3.5,要拆掉OpenAI的围墙..
对于取得的这些成绩,Clément在机器学习播客中表示:Hugging Face之所以..
关于作者
国务院环卫工..(普通会员)
文章
636
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索