「他们当时并不完全理解空气动力学,但却知道了飞机飞起来这种可能性,」李志飞说,飞机和 GPT-3 的探索很像,都是一种「先求其然,再求其所以然」的方法论,「当我们知道了它的极限情况,知道了它能干嘛,再去琢磨它实现的原理。」
当然,模型越复杂,它的不可解释性就越高。李志飞也坦言现在还不是在「破译」GPT-3 其所以然的阶段,「我们知道了 GPT-3 可行后,它模型太大了,训练成本太高了,那就先把成本降下来。」
先顺应科技发展的趋势,再对其优化,落地,产生商业价值,这是出门问问的「实用主义」。
今年 2 月,出门问问推出了全球首个面向产品和工业界的端到端语音识别开源工具——WeNet。在正式发布后短短六个月的时间里,WeNet 在世界最大的代码托管平台 Github 上获得超过 1000 个 star,成为当前最流行的产品级端到端语音识别框架。
李志飞解释道,「之前,如果你想训练一个语音识别器,用 Pipeline 实现步骤复杂,需要分好几个步骤推进,而且在每一步里都要有专门做语言模型、声学模型、信号处理……但用 WeNet 是很简单了,因为它端到端的特性,只有输入和输出,没有中间那些步骤。」
WeNet 专注在语音识别这个任务上,这和支持语音任务类型更多的工具(比如 EspNet 和 SpeechBrain)不同,WeNet 追求小而美,小而精。WeNet 的出现解决了目前主流语音开源工具之痛点,且各项性能指标达到业界最优,成为世界级技术领先的开源工具。因为其非常易于产品化,在工业界和高校已有广泛的应用,被誉为「产品化集成度最好的框架」。同时,出门问问也为企业使用 WeNet 部署语音识别提供商业化和技术支持。若确有非常好的其他语音任务可以拓展,WeNet 会单独组建其他项目来支持。
这和出门问问「复制」GPT-3 的思路其实是一致的,都是「产品优化」的思路,离 AI 通用还有距离,先思考如何更好地解决业内现有的问题。
「端到端的基于 Transformer 的深度学习的模型能有最好的效果,这是有目共睹的,WeNet 能这么受欢迎,不是我们厉害,是我们相信端到端的基于 Transformer 的深度学习。」李志飞说。
从出门问问对 GPT-3 和其他技术趋势的理解和实践,都能看出他们是「实用主义」的信徒。飞机先飞起来了,在还没能完全理解它之所以能起飞的原理之前,先学着飞是积极的探索。
本文作者:biu
相关文章
猜你喜欢