这个被谷歌称为规模最大、能力最强的人工智能模型,如果只看官方的演示视频,那确实是杀手级别的强。
在视频中,Gemini 不仅秒识别演示者画的画、放的视频、做的魔术小把戏,而且整个过程中对答如流,各种语气助词熟练得飞起。
这次发布的 Gemini 其实是一个家族式大模型,分别是 Gemini Nano、Gemini Pro 和 Gemini Ultra,三种模型将应用于各种不同场景,能力依次增强,可以理解成 “ 移动版 ”、“ 家庭版 ”、“ 企业版 ”。
甚至在 MMLU ( 大规模多任务语言理解 )测试里,Gemini Ultra 超过 GPT-4 还不够,还超越了人类专家,成为了第一个在该方面超越人类的模型。
除了在常规能力上的全面超越 GPT-4,Gemini 最特殊的一点是,它是谷歌带来的首个多模态大模型,也就是能不光能打字互动,也能进行语音、视频、图片的互动。
按照谷歌的说法,现有的所谓多模态大模型,都是单独训练了文本、视觉和音频等模型,再把这几个拼接起来。
这样出来的“ 散装 ”多模态大模型,在遇到图片、文字、语音或者视频同时出现时,只会分解出不同模块各自回答,然后汇总各个部分的回答最后形成答案。
而 Gemini 从根上就是个多模态模型,然后又通过大量多模态数据训练,它能够一开始就同步理解多模态。
这就好比遇到一个中日韩英混杂的旅游团,以往都是找懂对应语言的导游组成导游团去带队。
而 Gemini 的做法是找了一个通晓中日韩英四门语言的导游,一个人就能无缝安排所有游客。
不过,Gemini 也在网上招来不少质疑。比如有人吐槽明明 90.0% 和 89.8% 就差了千分之二,结果图里看起来像是巨大提升。而且,很多人发现,谷歌用了不止一次这样的 “ 春秋手法 ”。
比如,Gemini Ultra 和 GPT-4 使用的测试方法并不一样,却放在一起比:
而 GPT-4 这边,却有点底气不足,只给了个长城的答案,至于是哪段,它没具体说,介绍的也不多。
随后,我们又找了一些有隐含意义的表情包让他们理解。
第一张是狗狗戴伊丽莎白圈的梗图,他们给出的答案差不多。
我们又从美国财政部的官网随便找了张柱状图丢给它们,看看它们能读出多少信息。
这块儿,Bard 和 GPT-4 也是难分伯仲,给出的信息点大差不差,都准确读出了美国会加大对低等基础设施州的投资力度。
Bard 的答案:
GPT-4 的答案:
Bard 很简单明了地判断出了三角形 ABO 是等边三角形,得到角 ABO 是 60° 的正确答案:
同样,也是 Bard 更强,给出了正确答案,选 C:
GPT-4 这边,则是继续败北,说了一大堆,猜了一个答案 B :
总的来讲,结合能力强弱和付费与否,在 Gemini Pro 面前,GPT-4 显得有点菜了。
而在几天之后的 13 号,开发者和企业用户,也将直接可以调用 Gemini Pro 的 API 了。
另外,谷歌还准备把 Gemini 引入了 Pixel,Pixel 8 Pro 将是第一款运行 Gemini Nano 的智能手机。
在接下来的几个月中,Gemini 还会相继与谷歌的搜索、广告、Chrome 等服务和产品结合。
至于纸面实力 “ 暴打 ” GPT-4 的 Gemini Ultra ,则还要等到明年的年初,在 Bard Advanced 才能体验到。
但是,Pro 已经小胜 GPT-4 了,Ultra 版本多半还会更强。
谷歌的 AI 从遥遥领先,到沦为 OpenAI 追赶者的故事,一度成了科技圈的 “ 伤仲永 ”,被大家当成了典型。
现在,谷歌给出了强有力的回击。
毕竟,不要忘了,当年奥特曼、马斯克等人创办 OpenAI 的目的之一,就是为了打破谷歌在 AI 领域的垄断。
甚至,“ GPT ” 中的 “ T ”,也就是 Transformer,最早也是谷歌团队提出来的。
祖师爷一发力,或许谁也招架不住,Open AI 的神坛,看起来也不一定稳固。
相关文章
猜你喜欢