ChatGPT大更新！能看能听也能说，多模态功能即将上线-脚本导航

> 自媒体 > （AI）人工智能 > ChatGPT大更新！能看能听也能说，多模态功能即将上线

ChatGPT大更新！能看能听也能说，多模态功能即将上线

来源：电子技术应用ChinaAET

2023-09-28 14:33:17

469

管理

图像理解得到了多模态 GPT-3.5 和 GPT-4 的支持。这些模型将其语言推理技能应用于各种图像，包括照片、屏幕截图，以及包含文本和图像的文档。

ChatGPT可以用五个“角色”来回答用户的查询，与Alexa和Siri等语音助手相比，它的语气听起来也更像真人。OpenAI表示，增加语音功能是吸引更多用户使用ChatGPT并与其互动的重要方式。

OpenAI负责消费产品的副总裁彼得·邓（Peter Deng）接受采访时表示：“这是我们面临的挑战，最难的一项工作就是将这项令人惊叹的技术简化。”

目前，人们可以在ChatGPT的移动应用上大声提问，但聊天机器人会以文本回答。现在人们还可以将图片作为问题的一部分上传给聊天机器人，比如展示冰箱里的食材照片，并要求聊天机器人给出食谱建议。

添加语音和图像功能使得ChatGPT有望成为一个真正的“多模态”模型，它可以“看到”和“听到”世界，并能够用语音和图像进行回应。多模态模型是该行业竞争的下一个阶段，许多公司正在竞相开发功能更强大的模型。

多年来，语音助手已经出现在汽车、智能手机、电视和智能音箱中，每天有无数人使用。但在大多数情况下，语音助手只能进行简单的互动，比如开灯或报天气等。聊天机器人背后的“大语言模型”技术开启了一种可能性，让语音助手能够进行更长、更自然的对话，并回答更复杂的问题。

投资者和分析师指责亚马逊对聊天机器人和图像生成器等生成式人工智能领域的竞争反应迟缓。Anthropic的投资将使亚马逊接触到这家初创公司的研究人员和技术。Anthropic由前OpenAI员工创立，之前曾接受过谷歌的投资。

市场研究公司Gartner副总裁吉姆·黑尔（Jim Hare）表示，亚马逊通过上述举措向市场展示了自己是生成式人工智能领域的积极参与者，并试图改变人们对其已经落后的印象。

OpenAI去年11月发布了ChatGPT，引发了聊天机器人的热潮。微软与OpenAI合作使用后者的技术，谷歌则推出了自己的聊天机器人Bard。

人工智能研究人员警告称，人们可能会过度拟人化聊天机器人，因为它们的回答通常看起来很像真人的回应。这可能导致用户错误地对机器人的智能或能力产生信任。然而，聊天机器人仍然常常编造信息，并将其伪装成真实答案，这被人工智能研究人员称为“幻觉”。

ChatGPT的新角色名为Sky、Ember、Breeze、Juniper和Cove，每个角色都有不同的语调和口音。“Sky”的声音听起来有点像斯嘉丽·约翰逊（Scarlett Johansson），她在电影《她》中为主角爱上的人工智能配音。。OpenAI高管彼得·邓表示，语音角色并不是为了让人听起来像某个特定的人。

在一次演示中，彼得·邓展示了机器人如何理解杂乱无章的开放式语音问题。他说，这些新功能使对话变得更容易、更自由，而不必考虑如何准确地表达一个问题。“有了这个功能，你就可以与ChatGPT对话了，”邓说。“我的孩子现在要求用ChatGPT讲睡前故事。”

OpenAI的政策研究员桑吉尼·阿加瓦尔（Sandhini Agarwal）在采访中表示，他们已经测试了语音和图像功能，并增加了安全措施，以确保机器人对敏感话题作出适当的回应。例如，如果用户询问与心理健康相关的问题，ChatGPT会建议他们咨询专业人士。不过，阿加瓦尔表示还有更多工作要做，这项工作还远未完成。

来源 | 网络综合

☞商务合作：☏ 请致电 010-82306118 / ✐ 或致件 Tiger@chinaaet.com

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

大模型超进化！ChatGPT将支持图片和语音输入

2023-09-28 14:34

A股三大指数收跌，新型工业化、ChatGPT概念大涨

2023-09-28 14:32