> 自媒体 > (AI)人工智能 > OpenAI 发布全新音频模型,AI 助手听起来比以往更像真人!
OpenAI 发布全新音频模型,AI 助手听起来比以往更像真人!
来源:硅基指南针
2025-03-21 12:36:19
107
管理

OpenAI 刚刚发布了一套全新的音频模型,专为打造更自然、更灵敏的语音助手而设计。ChatGPT 的幕后推手 OpenAI 表示,这是将 AI 从纯文本交互带入更直观语音对话的重要一步。没错,AI 终于要“开口说话”了,而且听起来比以往任何时候都更像真人!

语音交互,AI 的下一个风口

AI 要真正走进我们的生活,光靠打字聊天是远远不够的。试想一下,如果我们能像和朋友聊天一样,直接用语音和 AI 交流,那该多爽?OpenAI 显然也看到了这一点,这次的新音频模型,就是他们从文本走向语音的“核武器”。

过去几个月,OpenAI 在文本智能体上没少下功夫,比如推出了 Operator 和 Agents SDK。但现在,他们把目光投向了语音,目标是让 AI 不仅能“听懂”我们的话,还能用自然的声音“回应”我们。用 OpenAI 的话说:“为了让智能体真正发挥作用,人们需要能够与它们进行更深入、更直观的交互——用自然口语进行有效沟通。”

2. 文字转语音:想怎么说就怎么说

如果说语音转文字是“听力升级”,那文字转语音就是“表达革命”。OpenAI 的 GPT-4o-mini-tts 模型,最大的亮点是引入了“可控性”(steerability)。简单来说,开发者不仅能决定 AI 说什么,还能控制它怎么说——语气、语调、情感,统统可以自定义。

在今天的直播演示中,OpenAI 工程师 Iaroslav Tverdoklhib 给我们秀了一手:他输入指令“像疯狂科学家一样说话:高能量、混乱”,模型立刻用一种激动又略带狂乱的语气读出了文本。OpenAI 还贴心地上线了一个互动网站 openai.fm,让大家可以自己动手试试这些语音效果。Iaroslav 说:“你可以想多具体就多具体,告诉模型你想要什么节奏、什么情绪。”这简直是给 AI 配音师的工作啊!

3. 文本智能体秒变语音智能体

对于开发者来说,这次还有个超级福利:OpenAI 更新了 Agents SDK,让文本智能体转成语音智能体变得超简单。在演示中,他们展示了一个案例:一个文本客服智能体,只加了九行代码,就升级成了能听懂语音问题并用自然语音回复的智能体。整个流程——语音转文字、语言模型处理、再转回语音——都由 SDK 一手包办。这对开发者来说,简直是“傻瓜式”操作,省时又省力。

价格亲民,开发者狂喜

说到实际应用,价格肯定是大家关心的点。这次新模型的定价非常接地气:

GPT-4o-transcribe:约 0.6 美分/分钟GPT-4o-mini-transcribe:0.3 美分/分钟GPT-4o-mini-tts:1.5 美分/分钟

相比之前的模型,这些新品不仅性能更强,价格还更低。这样的性价比,估计会让不少开发者笑出声。


背后的技术秘密

这些模型这么牛,靠的是什么?OpenAI 用到了不少黑科技,比如:

用专门的音频数据集进行预训练通过先进的蒸馏技术,把大模型的“智慧”转移到小模型上加上强化学习,进一步提升转录的准确性

他们还透露,未来会继续优化这些模型,甚至考虑让开发者上传自定义语音,当然,前提是得符合安全标准。

语音技术的未来:从客服到教育,AI 无处不在

语音技术一直是科技圈的“老梦想”,希望能让人类和机器的交互更自然。但过去,转录错误和机械化的声音总是让人失望。如果 OpenAI 的新模型真能像 benchmark 数据里那么优秀,那它们可能会彻底改变这个局面。从客服系统到语言学习 app,语音交互的体验都将迎来质的飞跃。想象一下,未来的 AI 助手,不仅能听懂你的话,还能用你喜欢的声音、语气和你聊天,这画面太美了!

目前,这些新模型已经通过 OpenAI 的 API 向所有开发者开放,大家可以马上上手试试。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
OpenAI 发布 o1-pro API,重新定义 AI 模型的“奢侈品”价格..
当你在科技领域听到“价格突破天际”时,或许已经见怪不怪。但当 OpenAI ..
李开复:像 DeepSeek 这样的开源模型让OpenAI 的 Sam Altman 彻夜难眠..
OpenAI 曾引领人工智能革命,目前仍是最有价值的人工智能初创公司,但一..
百万Token烧600刀!OpenAI O1-Pro性能翻倍,普通程序员只能围观?..
OpenAI最新发布的O1-Pro推理模型以每百万Token 600美元的天价引发热议!..
被扫地出门18个月后,马斯克终复仇OpenAI
18个月前,马斯克被OpenAI扫地出门;18个月后,他带着Grok 3强势回归,直..
百度回应「开盒」事件:信息并非来自百度;OpenAI 推出目前最昂贵的人工智..
过去,这位前英特尔负责人认为英伟达能够占据市场领先地位是「极其幸运的..
OpenAI 发布了新的 AI 模型,但价格高得惊人
OpenAI 发布了其最新模型 o1-pro,这是其推理模型 o1 的更新版本——但价..
中文觉醒进行时:当ChatGPT开始用汉字思考,英语霸权还剩几时?..
汉字的传承,并非一帆风顺,在几千年中也曾经受过波折。当年清政府闭关锁..
“对方正在输入……”会让你想什么
你刚刚在微信上跟领导进行了一场亲(礼)切(貌)友(尴)好(尬)的对话..
聊天带点不正经,学会调戏才更爱
01不能再想你了,因为一想到你,成年人该有的想法都溢出来了。02偷偷告诉..
关于作者
快乐的老范..(普通会员)
文章
777
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40395 企业收录2981 印章生成235865 电子证书1039 电子名片60 自媒体47129

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索