GPT4o发布之后,很多人注意到它主打的一个卖点就是通过端到端优化达到比较小的延迟,虽然实测下来,这个延迟未必能达到300ms,如openAI自己在博客上宣传的那样低,但基本上可以做到一秒左右,那么问题来了,如果不用这种多模态模型,是不是也能达到同样的低延迟的语音交互的效果呢?
首先要问,为什么不用多模态模型呢?在实际应用中,语音交互的对话逻辑可能会比较复杂,比如除了有模型处理的,也可能还有一些规则进行处理的,规则往往是必要的,对一些高频的或者说很丢人的错误,需要通过规则很快的Fix,那这时候通过语音识别,语言模型和语音合成这种三阶段的系统就还是有用武之地的。
第二,如何做到延迟很小?多模态模型的延迟较小,因为它是端到端进行流式优化的。但是语音识别、大语言模型或者语音合成这些组件模型,在设计的时候往往也考虑了流式的处理和输出,所以,如果三个组件都能流式处理,那么延迟和端到端的流式估计也差不了多少。
从具体实现上来讲,在调用语音识别服务的时候,要把句尾的静音检测的时间设短一点,比如200ms,在调用语言模型的时候,充分使用最新的语言模型推理的优化措施,比如量化推理,连续批处理,在比较好的硬件上执行等,语言模型的推理可以做到100ms输出第一个令牌,在调用语音合成服务的时候,采用比较快的语音输出服务,比如Azure TTS,首帧也能做到200ms左右,还有一些小的技巧,比如尽可能将第一句输出的快一点,句子的长度短一点,可以达到更优的效果,此外,在代码实现上,这三个服务最好是都在同一个物理区域,那么网络连接的延迟降到最小,做到以上这些,那么端到端的语音对话延迟在500ms左右,应该是可以做到的。参看
下面是网友统计的优化过的三阶段系统的各个组件的延迟时间
喜欢别忘了点赞和关注我,获取更多AI工具、AI前沿信息、商务交流沟通:
相关文章
猜你喜欢
成员 网址收录40386 企业收录2981 印章生成229705 电子证书1008 电子名片58 自媒体46281