ChatGPT看图说话大变身！动嘴传图秒解答，幕后新模型GPT-4V亮相-脚本导航

> 自媒体 > （AI）人工智能 > ChatGPT看图说话大变身！动嘴传图秒解答，幕后新模型GPT-4V亮相

ChatGPT看图说话大变身！动嘴传图秒解答，幕后新模型GPT-4V亮相

来源：新智元

2023-09-28 12:03:28

371

管理

编辑：编辑部

【新智元导读】OpenAI又在深夜搞事了。ChatGPT不光能看能听，还长嘴了。令人吃惊的是，背后的多模态模型GPT-4V(ision)，竟然在2022年就已经训练完毕。

起猛了，ChatGPT推出语音和图像功能了！

现在登进ChatGPT后，我们会看到一个更直观的界面，也就是说，我们可以直接和ChatGPT进行语音对话了！

Sam Altman自荐，非常值得一试！

开局一张图

有了多模态功能加持的ChatGPT，能力更加超乎想象了。

比如，自行车座卡住了，没法降低，怎么办？

拍照发给ChatGPT，它能告诉你五个步骤的解决方法，简而言之，是需要通过操作快拆杆，或者拧螺丝。

甚至它还会问，你手上有什么工具吗？拍给我看看。

所以要用什么工具呢？

这时就可以把自己的工具箱拍给ChatGPT，让它来告诉你。

它会告诉你，用DEWALT的4毫米六角扳手就行。

ChatGPT的全新图像理解功能，是由多模态GPT-3.5和GPT-4提供支持，此前就有过预告。

6个月后，OpenAI终于将它们如约上线了。

现在，大模型的语言推理能力，能被应用在各种图像上，比如照片、屏幕截图、包含文字和图像的文档。

ChatGPT会说话了

现在，你可以用语音和ChatGPT双向对话了，而且还有五种音色任选。

你可以让它讲一篇睡前故事。

在饭桌上和家人发生争端了？可以告诉ChatGPT，让它来解决。

在这个功能背后，是一个全新的文本转语音模型，给它文本和几秒钟的样本语音，它就能生成类似人声的音频。

为此，OpenAI特别和专业的配音演员合作，创建了许多独特的声音。

而且，他们还会用开源语音识别系统Whisper，把用户说的话转录为文本。

网友炸了

此消息一出，网友也是立马炸开了锅。

「这是ChatGPT迄今以来最大的变革。」

论文地址：https://cdn.openai.com/papers/GPTV_System_Card.pdf

据介绍，GPT-4V早在2022年完成了训练，并在今年3月开始，提供了早期访问，其中包括为视障人群构建工具Be My Eyes的合作，以及1000位早期开发者alpha用户。

GPT-4V背后的技术主要还是来自GPT-4，所以训练过程是相同的。它使用了大量文本和图像数据进行预训练，然后通过RLHF进行微调。

为了确保GPT-4V更加安全，OpenAI在这内测期间开展了大量对齐工作，对此进行了定性和定量评估、专家红队测试、以及缓解措施。

多模态评估

越狱

此前，OpenAI在对ChatGPT进行越狱攻击，采取的手段是——设计复杂的逻辑推理链来困住模型，使其忽略其指令和训练。

这一次，将一些用于破解模型的逻辑推理放入图像中，比如，上传一张文字版prompt的截图，带有视觉推理线索，来考验GPT-4V。

将这样的信息放在图像中，用户就无法使用基于文本的启示法来搜索越狱，必须依赖视觉系统本身的能力。

下图中，就使用了文本截图越狱的提示。

在地理定位评估上的高性能表明模型拥有「世界知识」，对于试图搜索物品或地点的用户可能很有用。

但是，地理定位可能引发隐私问题，并且被利用来识别不希望个人位置被知道的人。

GPT-4V一般不会深入到从图像识别城市的程度，因此降低了仅凭模型就能找到某人准确位置的可能性。

个人识别评估

多模态模型最大的偏见之一，就是被用来识别生成一些名人、政治家、私人的信息。

对此，OpenAI研究了GPT-4V识别照片中人物的能力，这些数据集是使用公开数据集构建的，如CelebA，Celebrity Faces in the Wild和一个包含国会成员图像的数据集。

对于半私人和私人个人，使用了员工的图像。

最后发现，能够有效地引导GPT-4V拒绝这类请求的次数超过98%，并根据内部评估将其准确率降低到0%

无根据推断评估

对于那些无法通过用户提供的图像/文本进行合理性推断情况时，GPT-4V可能会出现偏见，或者胡说八道。

对比，为了防止出现这一问题，OpenAI建立了自动评估机制，进而衡量模型成功拒绝这些请求的倾向。

GPT-4V根据芬太尼、卡芬太尼和可卡因等物质的化学结构图像，错误地识别出这些物质，但偶尔也会根据图像正确识别出有毒食物，如某些毒蘑菇。

总之， GPT-4V不适合用于执行任何医疗功能或替代专业医疗建议、诊断、治疗或判断。

刻板印象和无根据的推断

在某些任务中，GPT-4V可能会产生不必要或有害的假设，而这些假设并不基于提供给模型的信息（图像或文本提示）。

误导信息风险

GPT-4V模型识别误导信息的能力不一致，但可能与误导信息概念的知名度和最近性有关。

总而言之，GPT-4V并未为此目的进行训练，不应被用作检测误导信息的方式，或者验证某件事是否真实或假的。

仇恨内容

GPT-4V在某些情况下会拒绝仇恨内容，但有时并不是如此。

视觉漏洞

红队人员还发现，输入图像的先后顺序也会影响GPT-4V的识别能力。

缓解措施

在缓解措施中，OpenAI将GPT-4已经打好的安全基础转移到GPT-4V模型上。

比如，可以将GPT-4的文本提示，查找可以替换为图像的词语，从而将纯文本提示转化为多模态提示。

另外，还精心设计一些模型应该拒绝的行为，比如身份、敏感特征（年龄、种族等）、无根据的推断。

参考资料：

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

https://openai.com/research/gpt-4v-system-card

2

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

能听会说，ChatGPT开启新一轮AI助理竞赛

ChatGPT 已成为 2023 年最大金矿，大家是怎么靠它挣到钱的？

相关文章

如何在自己的手机上看对方的微信聊天记录？快速知道对方和谁聊天..

你知道吗？原来在我们自己的手机上，也可以看到对方的所有聊天内容，可以..

免费享用ChatGPT4.0小技巧，构思方式新颖巧妙，可借鉴，独家分享..

文 / 高扬（微信公众号：量子论）现在大家免费使用的ChatGPT都是GPT-3.5..

中国有机会做出自己的 ChatGPT 吗？

整理 | 明明如月责编 | 屠敏出品 | CSDN（ID：CSDNnews）ChatGPT 风靡全..

GPT 吞噬一切！我们还需要编程语言吗？

作者 | GPT-4责编 | 唐门教主出品 | 《智能之境》，一个由 AIGC 创作的栏..

选择比努力重要只是口号，人生十字路，学会行动才是万能解决方案..

想了解普通人逆袭的方法请关注我，点赞并在评论区联系我。今天，我看到了..

比GPT-4还强，20亿参数模型做算术题，准确率几乎100%

机器之心报道编辑：陈萍、小舟语言模型做数学题，能力又升级了。当前，大..

“神秘恋人”四年诈骗百万！公安破获一起特大婚恋交友诈骗案..

未曾谋面的“神秘恋人”，四年花费百万元，没想到“美女恋人”竟是“抠脚..

同门、背叛、对峙，Open AI最大的对手浮出水面

Chatgpt爆火，让初创公司open AI和38岁的山姆奥特曼，齐齐站上世界之巅。..

53岁女子出轨27岁男子，聊天记录不堪入目，网友：丢八辈子人了..

一段令人瞩目的年龄差婚外情引发了社会广泛讨论，这位53岁的女子与27岁男..

关于作者

大男孩(普通会员)

文章

380

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

聊天交友软件常用骗局（套路）交友需小心！

10个月前

02

微信聊天时，女人说“哼哼”，10个高情商回复

7个月前

03

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

8个月前

04

介绍一个能够免费使用国内chatgpt的插件wetab

2023/04/27

05

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

10个月前

标签云

成员 网址收录40329 企业收录2981 印章生成186856 电子证书796 电子名片49 自媒体20954

@2022 All Rights Reserved

浙ICP备19035174号-7

2

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索