OpenAI 刚刚发布了一套全新的音频模型,专为打造更自然、更灵敏的语音助手而设计。ChatGPT 的幕后推手 OpenAI 表示,这是将 AI 从纯文本交互带入更直观语音对话的重要一步。没错,AI 终于要“开口说话”了,而且听起来比以往任何时候都更像真人!
AI 要真正走进我们的生活,光靠打字聊天是远远不够的。试想一下,如果我们能像和朋友聊天一样,直接用语音和 AI 交流,那该多爽?OpenAI 显然也看到了这一点,这次的新音频模型,就是他们从文本走向语音的“核武器”。
过去几个月,OpenAI 在文本智能体上没少下功夫,比如推出了 Operator 和 Agents SDK。但现在,他们把目光投向了语音,目标是让 AI 不仅能“听懂”我们的话,还能用自然的声音“回应”我们。用 OpenAI 的话说:“为了让智能体真正发挥作用,人们需要能够与它们进行更深入、更直观的交互——用自然口语进行有效沟通。”
如果说语音转文字是“听力升级”,那文字转语音就是“表达革命”。OpenAI 的 GPT-4o-mini-tts 模型,最大的亮点是引入了“可控性”(steerability)。简单来说,开发者不仅能决定 AI 说什么,还能控制它怎么说——语气、语调、情感,统统可以自定义。
在今天的直播演示中,OpenAI 工程师 Iaroslav Tverdoklhib 给我们秀了一手:他输入指令“像疯狂科学家一样说话:高能量、混乱”,模型立刻用一种激动又略带狂乱的语气读出了文本。OpenAI 还贴心地上线了一个互动网站 openai.fm,让大家可以自己动手试试这些语音效果。Iaroslav 说:“你可以想多具体就多具体,告诉模型你想要什么节奏、什么情绪。”这简直是给 AI 配音师的工作啊!
对于开发者来说,这次还有个超级福利:OpenAI 更新了 Agents SDK,让文本智能体转成语音智能体变得超简单。在演示中,他们展示了一个案例:一个文本客服智能体,只加了九行代码,就升级成了能听懂语音问题并用自然语音回复的智能体。整个流程——语音转文字、语言模型处理、再转回语音——都由 SDK 一手包办。这对开发者来说,简直是“傻瓜式”操作,省时又省力。
价格亲民,开发者狂喜说到实际应用,价格肯定是大家关心的点。这次新模型的定价非常接地气:
GPT-4o-transcribe:约 0.6 美分/分钟GPT-4o-mini-transcribe:0.3 美分/分钟GPT-4o-mini-tts:1.5 美分/分钟相比之前的模型,这些新品不仅性能更强,价格还更低。这样的性价比,估计会让不少开发者笑出声。
这些模型这么牛,靠的是什么?OpenAI 用到了不少黑科技,比如:
用专门的音频数据集进行预训练通过先进的蒸馏技术,把大模型的“智慧”转移到小模型上加上强化学习,进一步提升转录的准确性他们还透露,未来会继续优化这些模型,甚至考虑让开发者上传自定义语音,当然,前提是得符合安全标准。
语音技术的未来:从客服到教育,AI 无处不在语音技术一直是科技圈的“老梦想”,希望能让人类和机器的交互更自然。但过去,转录错误和机械化的声音总是让人失望。如果 OpenAI 的新模型真能像 benchmark 数据里那么优秀,那它们可能会彻底改变这个局面。从客服系统到语言学习 app,语音交互的体验都将迎来质的飞跃。想象一下,未来的 AI 助手,不仅能听懂你的话,还能用你喜欢的声音、语气和你聊天,这画面太美了!
目前,这些新模型已经通过 OpenAI 的 API 向所有开发者开放,大家可以马上上手试试。
相关文章
猜你喜欢
成员 网址收录40395 企业收录2981 印章生成235865 电子证书1039 电子名片60 自媒体47129