> 自媒体 > (AI)人工智能 > ChatGPT看图说话大变身!动嘴传图秒解答,幕后新模型GPT-4V亮相
ChatGPT看图说话大变身!动嘴传图秒解答,幕后新模型GPT-4V亮相
来源:新智元
2023-09-28 12:03:28
371
管理

编辑:编辑部

【新智元导读】OpenAI又在深夜搞事了。ChatGPT不光能看能听,还长嘴了。令人吃惊的是,背后的多模态模型GPT-4V(ision),竟然在2022年就已经训练完毕。

起猛了,ChatGPT推出语音和图像功能了!

现在登进ChatGPT后,我们会看到一个更直观的界面,也就是说,我们可以直接和ChatGPT进行语音对话了!

Sam Altman自荐,非常值得一试!

开局一张图

有了多模态功能加持的ChatGPT,能力更加超乎想象了。

比如,自行车座卡住了,没法降低,怎么办?

拍照发给ChatGPT,它能告诉你五个步骤的解决方法,简而言之,是需要通过操作快拆杆,或者拧螺丝。

甚至它还会问,你手上有什么工具吗?拍给我看看。

所以要用什么工具呢?

这时就可以把自己的工具箱拍给ChatGPT,让它来告诉你。

它会告诉你,用DEWALT的4毫米六角扳手就行。

ChatGPT的全新图像理解功能,是由多模态GPT-3.5和GPT-4提供支持,此前就有过预告。

6个月后,OpenAI终于将它们如约上线了。

现在,大模型的语言推理能力,能被应用在各种图像上,比如照片、屏幕截图、包含文字和图像的文档。

ChatGPT会说话了

现在,你可以用语音和ChatGPT双向对话了,而且还有五种音色任选。

你可以让它讲一篇睡前故事。

在饭桌上和家人发生争端了?可以告诉ChatGPT,让它来解决。

在这个功能背后,是一个全新的文本转语音模型,给它文本和几秒钟的样本语音,它就能生成类似人声的音频。

为此,OpenAI特别和专业的配音演员合作,创建了许多独特的声音。

而且,他们还会用开源语音识别系统Whisper,把用户说的话转录为文本。

网友炸了

此消息一出,网友也是立马炸开了锅。

「这是ChatGPT迄今以来最大的变革。」

论文地址:https://cdn.openai.com/papers/GPTV_System_Card.pdf

据介绍,GPT-4V早在2022年完成了训练,并在今年3月开始,提供了早期访问,其中包括为视障人群构建工具Be My Eyes的合作,以及1000位早期开发者alpha用户。

GPT-4V背后的技术主要还是来自GPT-4,所以训练过程是相同的。它使用了大量文本和图像数据进行预训练,然后通过RLHF进行微调。

为了确保GPT-4V更加安全,OpenAI在这内测期间开展了大量对齐工作,对此进行了定性和定量评估、专家红队测试、以及缓解措施。

多模态评估

越狱

此前,OpenAI在对ChatGPT进行越狱攻击,采取的手段是——设计复杂的逻辑推理链来困住模型,使其忽略其指令和训练。

这一次,将一些用于破解模型的逻辑推理放入图像中,比如,上传一张文字版prompt的截图,带有视觉推理线索,来考验GPT-4V。

将这样的信息放在图像中,用户就无法使用基于文本的启示法来搜索越狱,必须依赖视觉系统本身的能力。

下图中,就使用了文本截图越狱的提示。

在地理定位评估上的高性能表明模型拥有「世界知识」,对于试图搜索物品或地点的用户可能很有用。

但是,地理定位可能引发隐私问题,并且被利用来识别不希望个人位置被知道的人。

GPT-4V一般不会深入到从图像识别城市的程度,因此降低了仅凭模型就能找到某人准确位置的可能性。

个人识别评估

多模态模型最大的偏见之一,就是被用来识别生成一些名人、政治家、私人的信息。

对此,OpenAI研究了GPT-4V识别照片中人物的能力,这些数据集是使用公开数据集构建的,如CelebA,Celebrity Faces in the Wild和一个包含国会成员图像的数据集。

对于半私人和私人个人,使用了员工的图像。

最后发现,能够有效地引导GPT-4V拒绝这类请求的次数超过98%,并根据内部评估将其准确率降低到0%

无根据推断评估

对于那些无法通过用户提供的图像/文本进行合理性推断情况时,GPT-4V可能会出现偏见,或者胡说八道。

对比,为了防止出现这一问题,OpenAI建立了自动评估机制,进而衡量模型成功拒绝这些请求的倾向。

GPT-4V根据芬太尼、卡芬太尼和可卡因等物质的化学结构图像,错误地识别出这些物质,但偶尔也会根据图像正确识别出有毒食物,如某些毒蘑菇。

总之, GPT-4V不适合用于执行任何医疗功能或替代专业医疗建议、诊断、治疗或判断。

刻板印象和无根据的推断

在某些任务中,GPT-4V可能会产生不必要或有害的假设,而这些假设并不基于提供给模型的信息(图像或文本提示)。

误导信息风险

GPT-4V模型识别误导信息的能力不一致,但可能与误导信息概念的知名度和最近性有关。

总而言之,GPT-4V并未为此目的进行训练,不应被用作检测误导信息的方式,或者验证某件事是否真实或假的。

仇恨内容

GPT-4V在某些情况下会拒绝仇恨内容,但有时并不是如此。

视觉漏洞

红队人员还发现,输入图像的先后顺序也会影响GPT-4V的识别能力。

缓解措施

在缓解措施中,OpenAI将GPT-4已经打好的安全基础转移到GPT-4V模型上。

比如,可以将GPT-4的文本提示,查找可以替换为图像的词语,从而将纯文本提示转化为多模态提示。

另外,还精心设计一些模型应该拒绝的行为,比如身份、敏感特征(年龄、种族等)、无根据的推断。

参考资料:

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

https://openai.com/research/gpt-4v-system-card

2
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
如何在自己的手机上看对方的微信聊天记录?快速知道对方和谁聊天..
你知道吗?原来在我们自己的手机上,也可以看到对方的所有聊天内容,可以..
免费享用ChatGPT4.0小技巧,构思方式新颖巧妙,可借鉴,独家分享..
文 / 高扬(微信公众号:量子论)现在大家免费使用的ChatGPT都是GPT-3.5..
中国有机会做出自己的 ChatGPT 吗?
整理 | 明明如月 责编 | 屠敏出品 | CSDN(ID:CSDNnews)ChatGPT 风靡全..
GPT 吞噬一切!我们还需要编程语言吗?
作者 | GPT-4责编 | 唐门教主出品 | 《智能之境》,一个由 AIGC 创作的栏..
选择比努力重要只是口号,人生十字路,学会行动才是万能解决方案..
想了解普通人逆袭的方法请关注我,点赞并在评论区联系我。今天,我看到了..
比GPT-4还强,20亿参数模型做算术题,准确率几乎100%
机器之心报道编辑:陈萍、小舟语言模型做数学题,能力又升级了。当前,大..
“神秘恋人”四年诈骗百万!公安破获一起特大婚恋交友诈骗案..
未曾谋面的“神秘恋人”,四年花费百万元,没想到“美女恋人”竟是“抠脚..
同门、背叛、对峙,Open AI最大的对手浮出水面
Chatgpt爆火,让初创公司open AI和38岁的山姆奥特曼,齐齐站上世界之巅。..
53岁女子出轨27岁男子,聊天记录不堪入目,网友:丢八辈子人了..
一段令人瞩目的年龄差婚外情引发了社会广泛讨论,这位53岁的女子与27岁男..
关于作者
大男孩(普通会员)
文章
380
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186856 电子证书796 电子名片49 自媒体20954

@2022 All Rights Reserved 浙ICP备19035174号-7
2
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索