在ChatGPT展现了惊人的实力之后,离发布仅仅四个多月,OpenAI又扔下了一颗核弹:
GPT-4发布了。
OpenAI在今天的博文中写到:
我们创建了GPT-4,这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,提供文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平。
在随后YouTube上进行的Live Demo中,OpenAI的总裁和联合创始人Greg Brockman展示了GPT-4的真正实力——总结文章、写代码、报税、写诗……GPT-3.5做不到的, GPT-4轻松拿下。
但这仅仅是表面,GPT再一次进化,虽然可能不是你想的那样。
新的模型:迭代优化
怎么样证明一个人比另外一个人更厉害?考试。
那怎么证明一个AI模型比另外一个更厉害?同样是考试。
OpenAI让GPT-4在参加了许多项人类的通用考试,结果证明,它在许多测试和基准测试中的表现比前一代确实大大提高:
根据他们的测试结果,GPT-4的SAT分数增加了150分,现在能拿到1600分中的1410分;
它能通过模拟律师考试,分数在应试者的前10% 左右,相比之下,GPT-3.5的得分在倒数 10% 左右;
在SAT阅读考试中和SAT数学考试中,GPT-4的成绩都能达到领先的排名……
图三
图四
图源:《纽约时报》
在《纽约时报》提供的案例中,同样可以看出GPT-4可以同时解析文本和图像,这也使它能够解释更复杂的信息。不过,目前图像输入的权限尚未公开,所以目前还没看到更多例子来证明GPT-4在图像方面的处理能力。
在随后举行的Live Demo中,OpenAI也表示,还没有公开提供这部分技术,但已经在和一家名为Be My Eyes的公司进行合作,对方会使用GPT-4来构建服务。
此外,GPT-4已经开始具备一点点的幽默感。它已经可以讲出一些模式化的、质量不咋样的冷笑话——但是,至少它已经开始理解“幽默”这一人类特质。
图六
Live Demo:报税、写诗、写代码,无所不能
如果说着这些数据、案例,似乎还难以让人直观感受到GPT-4的真正实力,那么OpenAI的总裁和联合创始人Greg Brockman,就亲自在YouTube上进行了一把直播,来实时演示Live Demo中,展示了GPT-4的真正实力——总结文章、写代码、报税、写诗……GPT-3.5做不到的, GPT-4轻松拿下。
图七
Greg Brockman展示了GPT-4的新的使用界面,左侧是系统框,可以规定AI的角色,以及整体的回答原则,中间则是对话框,可以输入具体的对话形态来对具体的内容进行调整、追问或者给出反馈。最右侧是一些参数设置。
在演示中,Brockman就使用使用左侧的“系统”框,让GPT-4相继成为“ChatGPT”、“AI编程助手”、“TaxGPT”,来解决不同的问题。
ChatGPT模式下,GPT-4可以处理超过2.5万字的文本,可以轻松地总结一篇超长文章的核心内容,比如把OpenAI今天发布的这篇讲述GPT-4的雄文总结要点。
甚至还可以像在演示中的那样,以各种奇怪的形式来提炼它——比如,以全是“G字母开头”的单词来总结。
图八
或者要它把这些内容要点写成一首诗。
在“AI编程助手”模式下,还可以让它轻松写代码,生成一个网站,或者更复杂的,写一个基于Discord的机器人,如果出现错误,比如要调用比较新的API而出错,甚至也不需要向它解释,而是把错误代码复制进去,它就会自动纠错,生成新的代码。
图九
或者要它变身成TaxGPT,要它基于税务法则,来计算出一对夫妻要缴纳多少税,而且还要把计算理由一步步写出来,让人们可以检阅。
图十
对于GPT-4展示出的专业能力,Greg Brockman大为赞赏,他表示那段税务文件,他自己读了半个小时也没有搞懂,然而GPT-4却可以很快给出答案。
或许这段不到一个小时的演示,才真正道出了GPT-4的强大之处——它不再仅仅是普通用户的“聊天机器人”,而将成为开发者手中的利器,在文本、编程、税务以及更多可以想见的领域,成为强大工具的开发基石。
从这一点来说,它比ChatGPT带来的影响,将更加广泛。
满嘴跑火车:还在跑,但是好一点
不得不提的是,尽管功能强大,但 GPT-4 与早期的 GPT 模型具有相似的局限性。最重要的是,它仍然不完全可靠——它仍然会大胆自信地编造事实,并且会出现推理错误。OpenAI强调,仍然推荐在使用它的时候要附加诸如人工审查、或者附加上下文,甚至在高风险情境中,要避免使用它。
在GPT-4公告中,OpenAI强调该系统已经接受了六个月的安全培训,在内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5高:“响应不允许内容的请求的可能性降低了 82%,产生真实事实的可能性提高了 40%,优于 GPT-3.5。”
这也意味着, GPT-4 相对于以前的模型来说,还是显著地减少了一本正经胡说八道的频率,而且用户千方百计提示它以让它说出被禁内容的成功率,也小了很多。
但是,这并不意味着系统不会出错或输出有害内容。例如,微软透露其Bing聊天机器人其实一直由GPT-4提供支持,但许多用户还是能够以各种创造性的方式打破 Bing的护栏,让机器人提供危险的建议、威胁用户和编造信息。
此外,GPT-4仍然是基于2021年9月之前的数据训练的,这也意味着它和前一代一样,仍然缺乏对于2021年9月之后的数据的有效理解。
“GPT-4 仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。”OpenAI表示。
应用:面向开发者,越来越贵
当然,除了表现方面,还有一个明显的不同是,ChatGPT-4比以前的版本“更大”,这意味着它已经接受了更多数据的训练,因此运行起来也更加昂贵。OpenAI 只表示它使用了微软Azure来训练模型,但没有公布有关具体模型大小或用于训练它的硬件的详细信息。
这也意味使用它的成本越来越高。与ChatGPT不同的是,这个新模型目前还不能免费公开测试,虽然它鼓励开发者申请试用,但是将需要上等待名单。
新模型将提供给ChatGPT的付费用户ChatGPT Plus(每月20美元),也将作为API的一部分提供,允许开发者付费将AI集成到他们的应用程序中。OpenAI表示,多家公司已经将GPT-4集成到他们的产品中,包 Duolingo、Stripe和Khan Academy等。
当然,如果你不是开发者或者付费用户,但是实在是想尝尝鲜,微软的Bing会是最好的选择——Bing的AI聊天机器人,过去六周以来,已经开始使用GPT-4了。
你感觉到了吗?
相关文章
猜你喜欢