文 | 尚恩
编辑 | 邓咏仪
刚刚发布文生图工具DALL·E 3后,OpenAI又在半夜带多模态ChatGPT来炸场。
来源:OpenAI
美国时间9月25日晚,OpenAI在ChatGPT中推出新的语音和图像功能,允许用户直接与ChatGPT进行语音对话或展示正在讨论的内容。简单来说现在的ChatGPT看、听、说样样俱全。
比如拍一张照片,询问如何调整自行车座椅高度,GPT给你说的头头是道。
来源:OpenAI
又或者,晚上回家后打开冰箱不知道吃啥,拍张照扔给GPT,它就能生成详细的菜谱。
OpenAI表示,多模态将在两周内先向“ChatGPT Plus订阅用户”和“企业版用户”推出,iOS和安卓都支持。
除了官方放出的这些实操细节,令人惊讶的是,多模态版GPT-4V模型其实早在2022年就训练完了,和GPT-4是同期进行训练的…
来源:OpenAI
不知道用什么工具,也没关系,直接把工具箱打开拍给ChatGPT,它不光能指出需要的工具,甚至连标签上的文字也能看懂,咱就是说也太方便了吧….
来源:OpenAI
语音部分的演示,则还是上周DALL·E 3演示的“小刺猬”,这次是让ChatGPT把5岁小朋友幻想中的“超级向日葵刺猬”讲成一个完整的睡前故事。
来源:OpenAI
在评估过程中,团队发现模型会出现例如无法给予准确医学建议、刻板印象、无根据的推断等问题。为缓解这些问题,OpenAI也采取措施,包括“增加安全训练数据以拒绝不当请求,并改进系统以应对文字和图像的挑战”。
回看OpenAI的每次重量级产品发布/提升,都是在竞争对手推出新品后立即做出反应。比如,在谷歌宣布自己的最强大模型“Gemini”、推出了Bard拓展程序(Extensions)后,OpenAI立马就用DALL·E 3和多模态模型GPT-4V(ision),又把业界惊艳了一把。
这其中,作为OpenAI话事人的Sam Altman,其对商业嗅觉的超高灵敏度在很大程度上让OpenAI一直保持领先状态,而这一次在多模态大战中,又小赢了一把。
来源:公开网络
长按添加「智涌」小助手入群
相关文章
猜你喜欢