GPT-4变“笨”了,斯坦福大学的一篇论文证实了这一点。该论文通过实验表明,6月份的GPT-4在某些任务上表现不如3月份,尤其是在数学和代码方面,表现下降明显。
在测试500道数学题时,6月份的GPT-4只答对12道题,成功率仅为2.4%,而3月份的版本则能答对488道,成功率高达97.6%。在测试50道简单级别的LeetCode题目时,6月份的GPT-4只能执行10%的代码,而3月份的版本则能执行52%。
这个结果让人难以置信,因为从数字上看,准确性下降得太厉害了。各种专家对论文的评估方式提出了质疑,并进行了激烈的讨论。同时,OpenAI也注意到了这篇论文,目前正在调查和复现中,我们可以等待官方的最终结论。
相关文章
猜你喜欢