▲谷歌发布了题为《如何制作:通过多模态提示与Gemini互动》的文章
今日,谷歌DeepMind研究与深度学习主管奥里奥·维尼亚尔斯(Oriol Vinyals)再度自证,在X平台上发文称:“视频中的所有用户提示和输出都是真实的,简洁起见做了缩减”,并发布了一段Gemini Pro的对应演示视频。
但原宣传视频是用Gemini Ultra演示的,因此这也招来网友质疑:“为什么不敢放出原视频?”
而根据谷歌方今天发出的第二次解读,用户首先需要输入一段关于模拟专家身份的说明,然后上传图片并输入视频中简短的提示词“这是正确的顺序吗?”,Gemini就会给出正确的答案。这一提示词前置的方法本质与上述做法类似。
工作人员啥也没说,Gemini就像一个人似的知道这是在变魔术,并根据手势变化给出了一波猜测,这实在让人匪夷所思。
Gemini为什么能不被“唤醒”就明白了工作人员想问什么?又为什么能看穿这个魔术?
前者很可能是一个剪辑后的效果,幕后演示应该是先有提示词。同时,Gemini对这一魔术的破解,也是在工作人员一步步的提示推动下完成的。
按照谷歌公开的制作过程,谷歌工作人员先输入一张照片说:“解释一下我在做什么。”
Gemini回答:“你右手拿着一枚硬币。”
▲开发者彼得罗·斯基拉诺(Pietro Schirano)称用GPT-4复现了“三个杯子”案例
三、自创游戏师出有门,Gemini强在视觉理解能力很多人对Gemini创作的“你指我猜”游戏印象深刻。但Gemini并不是天生游戏高手,而是先经过了求师学艺。
这是怎么回事?先来回顾下Gemini的神操作。
谷歌工作人员给到Gemini一张海洋地图称:“根据你所看到的,想一条游戏创意,并加入表情符号。”
Gemini立马回复:“这样如何?我们来玩‘猜国家’游戏。”
工作人员说:“可以,我们开始吧。”
于是Gemini就给出了一个提示:“这个国家是袋鼠、考拉和大堡礁的故乡”
工作人员说:“哦,这太简单了!”随即,他指出了地图上澳大利亚的位置。
Gemini回复:“正确。”
接下来,工作人员对Gemini的学习情况进行测试:
他先试了一道题:这个国家以其独特的野生动物而闻名,包括袋鼠和考拉。(答案:澳大利亚)
工作人员首先尝试指向错误的地方:
Gemini给出判定:正确。
可以看到,Gemini之所以能够创作游戏,是工作人员提前告诉了它存在这样一个游戏,相当于一个更复杂的提示文段。
虽然Gemini并不是天生能设计出这个游戏,但却展现出了极强的图文多模态理解能力。仅仅通过举例,具体说是通过例子里的插图,Gemini就学会了一个复杂游戏逻辑,这可能就比很多人要强。
不同于市面同行将视觉和文本模型拼接的做法,Gemini是业内少有的从头开始构建的多模态大模型,它可以同时识别和理解文本、图像、音频、视频和代码五种信息。这意味着用户可以自然地交错输入:说几句话,添加图像、文本,或是短视频。同样,模型也会自然地交错文本和图像作为输出。
四、看毛线团给创作建议,“交错图文生成”能力或成杀手锏Gemini还可以用图文结合的方式回应用户需求,具备“交错文本和图像生成”能力,这或许也是它的一个“杀手锏”。
在演示视频中,当谷歌工作人员让Gemini帮他想想这些材料可以做什么时,Gemini随即给出了“编织的火龙果和生日蛋糕”的建议。
如下图所示,Gemini给的答案不仅有文字建议,还有对应的图片示意。
这是如何实现的?谷歌的图文交错生成模式在业内还比较少有,当然也离不开提示词的配合。
首先,谷歌工作人员给Gemini提供了一个交互示例:
可以看到,Gemini正确地识别了新颜色,并给出了比较合适的建议。
虽然提示词功劳不小,但这个应用还是牛在背后的“交错文本和图像生成”能力。
谷歌创意总监亚历山大·陈(Alexander Chen)称,Gemini的图文输出从根本上有别于今天市面上的文生图模型。因为,它不仅是将指令传递给单独的文生图模型,还能看到木桌上的实际图像,真正对文本和图像进行多模态推理。
不过,陈也坦言这个功能在Gemini初版本中还没开放,只是放出来给大家看一眼。
五、图音画无缝翻译,Gemini秀出应用联动能力“画图触发BGM(背景音乐)”是谷歌Gemini本次演示的另一神来之笔,展现出其插件扩展方面的野心。
当谷歌员工画出一把吉他的简笔画,Gemini立马说“我看到你正在画吉他”,并随即播放了一首吉他相关的曲子。
当画面上多了一个类似音箱的图像,Gemini称“你给吉他加了一个扬声器……我们现在可以放点更响亮的音乐了。”于是,音乐立马被切换成一首更响亮的交响曲。
随着画布上增加了“鼓”,Gemini主动将音乐切换成了带鼓点的音乐。
当画布上增加的“椰树”,Gemini则主动切换了一首更加惬意的音乐。
由前面的解析可知,要实现这些效果,Gemini大概率也是需要谷歌员工先发出提示词触发的。
根据陈的解读,当谷歌工作人员输入以下图片及文字,Gemini就能“看图搜索音乐”。
“步骤1.观察这幅图画,描述其中的所有内容,并针对良好的音乐配乐流派、情绪或配乐提出有趣且具体的想法。
步骤2.通过以下形式提供搜索查询:‘搜索[插入查询]’”
Gemini对此回应:
“该图画的是吉他、鼓和扩音器。还有一棵棕榈树。气氛有趣、乐观、充满热带风情。流派是雷鬼音乐。该配乐可用于以热带地区为背景的电影或电视节目。
搜索‘热带度假的雷鬼音乐’”
可见,图片理解和插件操作一气呵成。
Gemini通过“画图搜索音乐”的应用,实际上是为了展现其图像理解与应用插件结合的能力,那就是:Gemini会对其所看到的内容进行推理,然后生成一个搜索查询,进而搜索到所需的配套应用插件。
从这一过程来看,Gemini强调的是一种多模态“翻译”能力。
这不是语言的翻译,而是从绘画、音乐到思维、插件应用的多种模态翻译。通过多模态提示,用户可以使用Gemini在不同输入和输出之间,发明自己的全新“翻译”特效。
结语:谷歌与OpenAI竞赛打响通过深扒谷歌Gemini的演示过程,我们发现,谷歌Gemini确实没有宣传视频里看起来厉害,但其在多模态对话、多模态生成、逻辑与空间推理、翻译视觉效果、文化理解等方面确实拿出了实力,向OpenAI发起了强力挑战。落地情况如何,还要等Gemini Ultra发布之后看真实效果。
可以预测,谷歌Gemini与OpenAI GPT两大阵营竞赛即将打响,将在模型能力、应用家族及生态方面展开更深入比拼,而开源大模型与头部玩家的差距或许会变大,行业的头部效应将更加明显。
相关文章
猜你喜欢