GPT-4的性能在时间推移中越来越差,而不是越来越好。
很多人报告说,模型的响应质量显著降低,但到目前为止,这都是凭个人经验而非客观数据。
有一项研究表明,6月份发布的GPT-4版本在一些任务上的表现要比3月份发布的版本更差。
代码生成也变得更糟了。
该团队创建了一个包含50个来自LeetCode的简单问题的数据集,并测量了多少GPT-4答案在不做任何更改的情况下能够运行。
3月份的版本在52%的问题上成功了,但使用6月份的模型后,这一数字降至惨淡的10%。
有传言称,他们正在使用几个更小和专业化的GPT-4模型,这些模型的行为类似于一个大模型,但运行成本较低。当用户提出问题时,系统会决定将查询发送到哪个模型。
更便宜、更快,但这种新方法是否是质量下降背后的问题?
在我看来,这对于任何依赖于GPT-4构建应用程序的人来说都是一个不好的信号。LLM的行为随着时间的推移而改变是不可接受的。
相关文章
猜你喜欢