GPT-4在发布时令人印象深刻,但一些旁观者观察到它的准确性和能力有所下降。这些观察已经在网上发布了几个月,包括在OpenAI论坛上。
一项由斯坦福大学和加州大学伯克利分校合作进行的研究表明,GPT-4并没有提高其回答能力,而是随着语言模型的进一步更新而变得更糟。
许多人报告注意到模型回答的质量有显著的下降,但到目前为止,这都是基于个人经验的。
这项名为《ChatGPT的行为随时间如何变化?》的研究在3月至6月之间测试了GPT-4和之前的语言版本GPT-3.5的能力。使用一个包含500个问题的数据集,研究人员观察到GPT-4在3月时有97.6%的准确率,正确回答了488个问题,在6月时经过GPT-4的一些更新后,准确率降到了2.4%,仅仅产生了12个正确答案。
GPT-4如何失去理性?研究人员使用的另一个测试是一种思维链技术,他们问GPT-4 17077是一个质数吗?这是一个需要推理的问题。研究人员称,GPT-4不仅错误地回答了否,而且没有解释它是如何得出这个结论的。
这项研究是在OpenAI一位高管试图平息GPT-4实际上变得更笨的怀疑之后的六天发布的。
有推文暗示说,回答质量的下降是由于使用过度而产生的心理现象。不,我们没有让GPT-4变得更笨。恰恰相反:我们让每一个新版本比前一个更聪明。目前的假设是:当你更频繁地使用它时,你开始注意到你以前没有发现的问题。
不过,并不是每个人都认为这项研究证明了什么。有些人指出,行为的改变并不等于能力的降低。这也在研究本身中得到了承认,指出“一个具有某种能力的模型可能会或可能不会对特定的提示显示出该能力。”
GPT-4还有救吗?虽然GPT-4在发布时令人印象深刻,但最近的观察表明它可能随着时间而变得更糟。这可能是由于语言模型持续更新或者模型生成准确回答的能力下降所致。
为了解决这个问题,研究人员建议探索其他技术来提高GPT-4的性能,例如使用更小和专门化的模型或使用不同类型的提示来生成回答。
然而,重要的是要记住,虽然GPT-4有它的优势,但它仍然是一个相对新的技术,它的能力可能有限。
总的来说,这项研究引发了关于GPT-4的性能和语言模型未来更新的潜力的问题。随着技术的不断发展,保持警惕并监测模型的行为以确保它保持有用和准确是很重要的。
我是科级侦察星,希望你喜欢我的文章。如果你想看到更多有趣的内容,就请用你的点赞、关注、收藏来告诉我吧。
相关文章
猜你喜欢