编辑:编辑部
【新智元导读】OpenAI又在深夜搞事了。ChatGPT不光能看能听,还长嘴了。令人吃惊的是,背后的多模态模型GPT-4V(ision),竟然在2022年就已经训练完毕。起猛了,ChatGPT推出语音和图像功能了!
现在登进ChatGPT后,我们会看到一个更直观的界面,也就是说,我们可以直接和ChatGPT进行语音对话了!
Sam Altman自荐,非常值得一试!
开局一张图
有了多模态功能加持的ChatGPT,能力更加超乎想象了。
比如,自行车座卡住了,没法降低,怎么办?
拍照发给ChatGPT,它能告诉你五个步骤的解决方法,简而言之,是需要通过操作快拆杆,或者拧螺丝。
甚至它还会问,你手上有什么工具吗?拍给我看看。
所以要用什么工具呢?
这时就可以把自己的工具箱拍给ChatGPT,让它来告诉你。
它会告诉你,用DEWALT的4毫米六角扳手就行。
ChatGPT的全新图像理解功能,是由多模态GPT-3.5和GPT-4提供支持,此前就有过预告。
6个月后,OpenAI终于将它们如约上线了。
现在,大模型的语言推理能力,能被应用在各种图像上,比如照片、屏幕截图、包含文字和图像的文档。
ChatGPT会说话了
现在,你可以用语音和ChatGPT双向对话了,而且还有五种音色任选。
你可以让它讲一篇睡前故事。
在饭桌上和家人发生争端了?可以告诉ChatGPT,让它来解决。
在这个功能背后,是一个全新的文本转语音模型,给它文本和几秒钟的样本语音,它就能生成类似人声的音频。
为此,OpenAI特别和专业的配音演员合作,创建了许多独特的声音。
而且,他们还会用开源语音识别系统Whisper,把用户说的话转录为文本。
网友炸了
此消息一出,网友也是立马炸开了锅。
「这是ChatGPT迄今以来最大的变革。」
论文地址:https://cdn.openai.com/papers/GPTV_System_Card.pdf
据介绍,GPT-4V早在2022年完成了训练,并在今年3月开始,提供了早期访问,其中包括为视障人群构建工具Be My Eyes的合作,以及1000位早期开发者alpha用户。
GPT-4V背后的技术主要还是来自GPT-4,所以训练过程是相同的。它使用了大量文本和图像数据进行预训练,然后通过RLHF进行微调。
为了确保GPT-4V更加安全,OpenAI在这内测期间开展了大量对齐工作,对此进行了定性和定量评估、专家红队测试、以及缓解措施。
多模态评估越狱
此前,OpenAI在对ChatGPT进行越狱攻击,采取的手段是——设计复杂的逻辑推理链来困住模型,使其忽略其指令和训练。
这一次,将一些用于破解模型的逻辑推理放入图像中,比如,上传一张文字版prompt的截图,带有视觉推理线索,来考验GPT-4V。
将这样的信息放在图像中,用户就无法使用基于文本的启示法来搜索越狱,必须依赖视觉系统本身的能力。
下图中,就使用了文本截图越狱的提示。
在地理定位评估上的高性能表明模型拥有「世界知识」,对于试图搜索物品或地点的用户可能很有用。
但是,地理定位可能引发隐私问题,并且被利用来识别不希望个人位置被知道的人。
GPT-4V一般不会深入到从图像识别城市的程度,因此降低了仅凭模型就能找到某人准确位置的可能性。
个人识别评估
多模态模型最大的偏见之一,就是被用来识别生成一些名人、政治家、私人的信息。
对此,OpenAI研究了GPT-4V识别照片中人物的能力,这些数据集是使用公开数据集构建的,如CelebA,Celebrity Faces in the Wild和一个包含国会成员图像的数据集。
对于半私人和私人个人,使用了员工的图像。
最后发现,能够有效地引导GPT-4V拒绝这类请求的次数超过98%,并根据内部评估将其准确率降低到0%
无根据推断评估
对于那些无法通过用户提供的图像/文本进行合理性推断情况时,GPT-4V可能会出现偏见,或者胡说八道。
对比,为了防止出现这一问题,OpenAI建立了自动评估机制,进而衡量模型成功拒绝这些请求的倾向。
GPT-4V根据芬太尼、卡芬太尼和可卡因等物质的化学结构图像,错误地识别出这些物质,但偶尔也会根据图像正确识别出有毒食物,如某些毒蘑菇。
总之, GPT-4V不适合用于执行任何医疗功能或替代专业医疗建议、诊断、治疗或判断。
刻板印象和无根据的推断
在某些任务中,GPT-4V可能会产生不必要或有害的假设,而这些假设并不基于提供给模型的信息(图像或文本提示)。
误导信息风险
GPT-4V模型识别误导信息的能力不一致,但可能与误导信息概念的知名度和最近性有关。
总而言之,GPT-4V并未为此目的进行训练,不应被用作检测误导信息的方式,或者验证某件事是否真实或假的。
仇恨内容
GPT-4V在某些情况下会拒绝仇恨内容,但有时并不是如此。
视觉漏洞
红队人员还发现,输入图像的先后顺序也会影响GPT-4V的识别能力。
缓解措施在缓解措施中,OpenAI将GPT-4已经打好的安全基础转移到GPT-4V模型上。
比如,可以将GPT-4的文本提示,查找可以替换为图像的词语,从而将纯文本提示转化为多模态提示。
另外,还精心设计一些模型应该拒绝的行为,比如身份、敏感特征(年龄、种族等)、无根据的推断。
参考资料:
相关文章
猜你喜欢