> 自媒体 > (AI)人工智能 > 刷题成绩达哈佛标准,GPT-4要让谷歌工程师熬夜了
刷题成绩达哈佛标准,GPT-4要让谷歌工程师熬夜了
来源:动点科技
2023-04-11 12:50:49
308
管理

当地时间3月14日,OpenAI携GPT-4来了!随着ChatGPT聚焦全球目光,这一次的产品发布自然也备受关注。

据了解,OpenAI花了6个月时间使GPT-4更安全、更具一致性。在内部评估中,与GPT-3.5相比,GPT-4对不允许内容做出回应的可能性降低82%,给出事实性回应的可能性高40%。GPT-4引入了更多人类反馈数据进行训练,不断吸取现实世界使用的经验教训进行改进。

作为一款所谓的“高体验、强能力的先进AI系统”,在官方演示中,GPT-4几乎就只花了1-2秒的时间,识别了手绘网站图片,并根据要求实时生成了网页代码制作出了几乎与手绘版一样的网站。

除了普通图片,GPT-4还能处理更复杂的图像信息,包括表格、考试题目截图、论文截图、漫画等,例如根据专业论文直接给出论文摘要和要点。正因此,OpenAI官方称,GPT-4是OpenAI扩展深度学习的最新里程碑。

值得一提的是,GPT-4虽然于14日才正式公开,但早在一个月前,微软的搜索引擎必应就已经在GPT-4 上运行。微软表示,“如果您在过去五周内的任何时间使用过新版必应,那么您已经体验过GPT-4的早期版本。”

OpenAI表示,在过去两年里,他们重构了整个深度学习堆栈,并与微软Azure合作,共同设计了一台超级计算机。一年前,OpenAI训练了GPT-3.5,作为整个系统的首次“试运行”。

目前,GPT-4可以可以让用户指定任何视觉或语言任务,然后生成文本输出(自然语言、代码等),给定的输入包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯文本输入类似的能力。比如图表分析、总结概括。

强悍的学习力

虽然在许多现实场景中AI仍不如人类,但GPT-4在许多专业和学术基准上都呈现了人类水平的表现。以美国 BAR律师执照统考为例,GPT3.5可以达到 10%水平,GPT-4可以达到90%水平。在 GPT-3.5 版本模型下,它的 SAT 成绩只能排倒数 10% 的水平,然而 GPT-4 模型可以超越 90% 考生的水平。如果仅以分数作为衡量,GPT-4 已经差不多达到了美国顶尖名校的入学标准。

不仅如此,GPT-4的语言能力同样令人惊叹。OpenAI称,在测试的26种语言中,GPT-4在24种语言方面的表现均优于gpt-3.5等其他大语言模型的英语语言性能。其中GPT-4的中文能够达到80.1%的准确性,而gpt-3.5的英文准确性仅为70.1%,GPT-4英文准确性提高到了85.5%。

在API方面,GPT-4还开放了一个使用功能,允许修改“系统提示”。通过修改系统提示,GPT-4就可以展现出更多样的性格,而不会像先前那样一板一眼。

与此同时,OpenAI正在开源其软件框架OpenAI Evals,用于创建和运行评估GPT-4等模型的基准,同时逐个样本检查其性能。用户可以应用它来跟踪不同模型版本(现在将定期推出)和不断发展的产品集成的性能。

不足之处

大模型的发展趋势,除了更好的性能表现外,关键的突破就是多模态,GPT-4此次在多模态方面相比前代已经进步了不少。然而,GPT-4目前只能输入图片内容,但是输出的仍是文字。图片、视频等跨模态的生成形式,GPT-4尚不具备。

而且,与前一代一样,GPT-4是基于2021年9月之前的数据训练的,所以GPT-4对于2021年9月之后发生的事件仍然缺乏有效理解,也不会从其经验中进行学习。OpenAI表示:“GPT-4仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。”

OpenAI承认,GPT-4 与早期的 GPT 模型具有相似的局限性,它仍然不完全可靠,可能会存在推理错误。不过 GPT-4 相对于以前的模型已经有比较显著的改善了。OpenAI对不同模型进行了内部对抗性真实性测试,具体来看,进行了涵盖学习、技术、写作、历史、数学、可惜等九类测试,准确度为 1.0 意味着模型的答案被判断为与人类理想回答一致。

目前,GPT-4没有免费版本,仅向月订阅费20美元的ChatGPT Plus用户及企业和开发者开放。ChatGPT Plus用户将获得有使用上限的GPT-4权限。OpenAI将根据实际需求和系统性能调整确切的使用上限,但预计容量将受到严重限制。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
合资大7座SUV,华为提升智能化,广丰汉兰达新款上市
近日,广汽丰田2024款汉兰达正式上市,新车指导价24.98-32.58万元,双擎..
高富帅也买不到!盘点十大小众品牌跑车
盘点十大小众品牌跑车!SSC TuataraSSC Tuatara排量为6.9升,最大功率为1..
全新兰博基尼Revuelto:混合动力超级跑车
全新兰博基尼 Revuelto 2024 评测:一款轰动的混合动力超级跑车任何担心..
“网红”公路上的“三高”测试,严苛!新能源汽车混动新技术迈上新台阶..
央视网消息:记者从中国汽车工业协会了解到,2024年以来,我国新能源汽车..
“网红”公路上的“三高”测试,严苛!新能源汽车混动新技术迈上新台阶..
来源:央视网央视网消息:记者从中国汽车工业协会了解到,2024年以来,我..
“网红”公路上的“三高”测试,严苛!新能源汽车混动新技术迈上新台阶..
来源:央视网 央视网消息:记者从中国汽车工业协会了解到,2024年以来,..
澳洲学者:中国新能源汽车“产能过剩”?“产能不足”还差不多..
导读近年来,中国已成为全球新能源汽车行业的领导者,但却引发了欧美政客..
实探2023上海车展:汽车价格普遍下调,新能源已成常态..
4月18日,第二十届上海车展盛大开幕。作为后疫情时代首次A级车展,上海车..
混动新能源汽车高原“三高”测试 考核哪些指标?
记者从中国汽车工业协会了解到,今年以来,我国新能源汽车中的混动新技术..
关于作者
清水大树(普通会员)
文章
966
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40400 企业收录2981 印章生成237605 电子证书1052 电子名片60 自媒体51916

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索