每日AI进展：不用多模态gpt4o, 如何实现500ms延迟语音聊天机器人-脚本导航

> 自媒体 > （AI）人工智能 > 每日AI进展：不用多模态gpt4o, 如何实现500ms延迟语音聊天机器人

每日AI进展：不用多模态gpt4o, 如何实现500ms延迟语音聊天机器人

来源：AIGC研究社

2025-02-04 16:27:10

312

管理

GPT4o发布之后，很多人注意到它主打的一个卖点就是通过端到端优化达到比较小的延迟，虽然实测下来，这个延迟未必能达到300ms，如openAI自己在博客上宣传的那样低，但基本上可以做到一秒左右，那么问题来了，如果不用这种多模态模型，是不是也能达到同样的低延迟的语音交互的效果呢？

首先要问，为什么不用多模态模型呢？在实际应用中，语音交互的对话逻辑可能会比较复杂，比如除了有模型处理的，也可能还有一些规则进行处理的，规则往往是必要的，对一些高频的或者说很丢人的错误，需要通过规则很快的Fix，那这时候通过语音识别，语言模型和语音合成这种三阶段的系统就还是有用武之地的。

第二，如何做到延迟很小？多模态模型的延迟较小，因为它是端到端进行流式优化的。但是语音识别、大语言模型或者语音合成这些组件模型，在设计的时候往往也考虑了流式的处理和输出，所以，如果三个组件都能流式处理，那么延迟和端到端的流式估计也差不了多少。

从具体实现上来讲，在调用语音识别服务的时候，要把句尾的静音检测的时间设短一点，比如200ms，在调用语言模型的时候，充分使用最新的语言模型推理的优化措施，比如量化推理，连续批处理，在比较好的硬件上执行等，语言模型的推理可以做到100ms输出第一个令牌，在调用语音合成服务的时候，采用比较快的语音输出服务，比如Azure TTS，首帧也能做到200ms左右，还有一些小的技巧，比如尽可能将第一句输出的快一点，句子的长度短一点，可以达到更优的效果，此外，在代码实现上，这三个服务最好是都在同一个物理区域，那么网络连接的延迟降到最小，做到以上这些，那么端到端的语音对话延迟在500ms左右，应该是可以做到的。参看

https://learn.microsoft.com/en-us/azure/ai-services/speech-service/how-to-lower-speech-synthesis-latency?pivots=programming-language-csharp

下面是网友统计的优化过的三阶段系统的各个组件的延迟时间

喜欢别忘了点赞和关注我，获取更多AI工具、AI前沿信息、商务交流沟通：

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

3个不能错过的ai聊天机器人！简直就是GPT的完美平替

4个月前

GPT-4o或大幅提升AI终端实用性，易方达国证机器人产业ETF联接基金（A/C：020972/020973）正在发行中

4个月前