出品 | 微果酱(wjam123456)
作者 | 陈出木
最近一段时间,谷歌的AI大模型进展吸引了不少关注。
但在大家都搓着手,试图等着看谷歌如何逆风翻盘的时候,AI大模型领域的霸主OpenAI再次传来重磅消息。
根据外媒The Information的报道,OpenAI即将推出多模态模型GPT-Vision,文章标题毫不客气地表明这是用来回击谷歌的。
Sam Altman在麻省理工学院回应GPT-5传闻毕竟当时这段表态主要还是用来回应公开信《暂停AI巨型实验》。3月29日,包括特斯拉CEO埃隆·马斯克、苹果联合创始人Steve Wozniak、图灵奖得主Yoshua Bengio在内的数千位科技界人士联名呼吁,在6个月内暂停开发比GPT-4更为强大的AI系统,以留出时间解决AI的安全与伦理问题。
就在本月初,DeepMind联合创始人、现Inflection AI的CEO Mustafa Suleyman在一次访谈中表示自己认为OpenAI正在秘密训练GPT-5。Suleyman把多数人心里的猜测摆到了台面上,压力重新给到了OpenAI。
截图自访谈节目《CEO of Inflection AI Mustafa Suleyman on risks of artificial intelligence》不过现在谈论GPT-5或许还是太早了,因为OpenAI至今没有对相关消息作出回应。除了代号Gobi的全新大模型有可能是传言中的GPT-5,其余我们一概不知。甚至根据外媒消息,OpenAI似乎还没有开始训练Gobi。
相对来说,GPT-Vision的情况更加有迹可循。
目前有不少人猜测,GPT-Vision很可能是此前就在GPT-4的3月发布会上演示过的多模态功能。当时的GPT-4仅根据一张简单的手写草图就生成了网页代码,震惊全世界。
根据现有信息,我们能够对Gemini有以下的认知:
1、初代Gemini应该是在TPUv4上训练的,且选择使用较少的芯片数量,以保证芯片的可靠性和热插拔。目前其已开始在TPUv5 Pod上训练,算力比训练GPT-4的要大 5 倍。
2、Gemini的训练数据库为Youtube上93.6亿分钟的视频字幕,总数据集大小约为GPT-4的两倍。
3、Gemini由一组大型语言模型组成,可能使用MOE架构与投机采样技术,通过小模型提前生成token传输至大模型评估,提高总推理速度。
4、Gemini支持聊天机器人、总结文本或生成原始文本(如电子邮件草稿、歌词或新闻文章)、生成原始图片等功能。
5、Gemini支持帮助工程师编写代码,谷歌希望其提高开发人员的代码生成能力,以追赶微软的GitHub Copilot代码助手,后者依赖于OpenAI。
6、谷歌员工还讨论过利用Gemini来实现图表分析等功能,比如要求模型解释图表的含义,及使用文本或语音指令来浏览网页或其他软件。
7、Gemini有不同大小版本,支持开发者购买简化版处理简单任务,足够小的版本可以在个人终端运行。
值得注意的是,相比GPT-4,Gemini有一个优势——除了网络公共信息外,还可以利用谷歌从其消费产品中获取大量专有数据。因此,有相关人士认为:
该模型在理解用户对特定查询的意图时应该会特别准确,而且它似乎会产生较少的错误答案(即幻觉)。
尽管Gemini还没有真正登场,但已经有不少人表达了看好。在前面提及的Dylan Patel和Daniel Nishball的文章中,也有类似的观点:
The statement that may not be obvious is that the sleeping giant, Google has woken up, and they are iterating on a pace that will smash GPT-4 total pre-training FLOPS by 5x before the end of the year.(可能不太明显的说法是,沉睡的巨人Google已经苏醒,他们正在迭代,将在年底前将GPT-4预训练总FLOPS提高5倍。)
我们可以发现,Gemini的每一项都在和GPT-4作比较,当然这是不可避免的情况。毕竟在ChatGPT横空出世之前,手握AI利剑的还是谷歌。
所以大众的共识都是——
The point here is Google had all the keys to the kingdom, but they fumbled the bag. (这里的重点是谷歌拥有王国的所有钥匙,但他们却弄丢了袋子。)
基于此,谷歌也不得不更加努力,加速证明自己仍然能在AI一道上拿分。谷歌选择直接偷家,趁着OpenAI还没拿出真正的多模态模型之前,试图抢先在高地插上自己的旗子。当然,OpenAI并不打算放任谷歌追击,这也就有了此次的GPT-Vision和Gobi。
这也指出了下一阶段AI竞争的重点,便是各家正在内卷的多模态。毕竟文字形式的生成式AI已经毫无新鲜感,再智能也只能屈居于ChatGPT的荣光之下。
不过,发展至今日,AI的战场上已经不是两军对垒的局面了,谷歌和OpenAI不过是混战中较显眼的巨头。
同样需要盈利的这两者都在大模型的项目中加入了商业化的部分,比如对企业方的政策。但另辟蹊径的后来者Meta,走的是开源的路子,一直在不断发布新功能,主打一个量多还免费。
很难评,大家会不会为了成本而选择Meta。
可以说,现在的AI混战已经到了胶着的白热化阶段,下一个冲出来的会是谁,让子弹再飞一会儿吧。
相关文章
猜你喜欢