最后的任务是视觉推理。新版 GPT-4 和 GPT-3.5 的整体性能较三个月前有小幅提升,但依旧不高:GPT-4 的正确率为 27.4%,GPT-3.5 为 12.2%。值得注意的是,尽管整体性能更好,但 GPT-4 在之前没有犯的错误反而在新版里出现了,凸显了对于关键应用漂移监测的必要性。
开源才是答案?
有趣的是,Chen 等人对 ChatGPT 测试的论文与 Llama 2 几乎同时发表,无论用途和用户,向所有人开放免费下载使用。“OSS LLM 不会这么保密。我们可以作为一个社区严格版本化和跟踪回归、诊断和修复所有这些问题,”Fan 在推文中提到。
自 ChatGPT 横空出世之后,人人都在呼唤、渴求它的开源,然而终究是石沉大海。哪怕是当 OpenAI 创始人 Sam Altman 被直接问到关于开源的问题时,他的回答依然很巧妙地规避了 GPT 是否会开源,只是说“我们未来会有更多开源大模型,但没有具体模型和时间表”。这也是为什么 Llama 2 火速收获全球开发者及企业喜爱的关键所在。而对于搭建像 ChatGPT 一样封闭式的大语言模型,对于安全的不确定性、更持续透明的信息同步和维护依然是开发者最为迫切的需求。
参考链接:
https://twitter.com/DrJimFan/status/1681716564335394817
https://arxiv.org/abs/2307.09009
https://www.theregister.com/2023/07/20/gpt4_chatgpt_performance/?td=rt-3a
https://community.openai.com/t/experiencing-decreased-performance-with-chatgpt-4/234269
https://twitter.com/OfficialLoganK https://twitter.com/OpenAI
相关文章
猜你喜欢