再反转！揭开谷歌Gemini复仇GPT-4的底牌-脚本导航

> 自媒体 > （AI）人工智能 > 再反转！揭开谷歌Gemini复仇GPT-4的底牌

再反转！揭开谷歌Gemini复仇GPT-4的底牌

来源：智东西

2023-12-09 16:01:55

313

管理

▲谷歌发布了题为《如何制作：通过多模态提示与Gemini互动》的文章

今日，谷歌DeepMind研究与深度学习主管奥里奥·维尼亚尔斯（Oriol Vinyals）再度自证，在X平台上发文称：“视频中的所有用户提示和输出都是真实的，简洁起见做了缩减”，并发布了一段Gemini Pro的对应演示视频。

但原宣传视频是用Gemini Ultra演示的，因此这也招来网友质疑：“为什么不敢放出原视频？”

而根据谷歌方今天发出的第二次解读，用户首先需要输入一段关于模拟专家身份的说明，然后上传图片并输入视频中简短的提示词“这是正确的顺序吗？”，Gemini就会给出正确的答案。这一提示词前置的方法本质与上述做法类似。

工作人员啥也没说，Gemini就像一个人似的知道这是在变魔术，并根据手势变化给出了一波猜测，这实在让人匪夷所思。

Gemini为什么能不被“唤醒”就明白了工作人员想问什么？又为什么能看穿这个魔术？

前者很可能是一个剪辑后的效果，幕后演示应该是先有提示词。同时，Gemini对这一魔术的破解，也是在工作人员一步步的提示推动下完成的。

按照谷歌公开的制作过程，谷歌工作人员先输入一张照片说：“解释一下我在做什么。”

Gemini回答：“你右手拿着一枚硬币。”

▲开发者彼得罗·斯基拉诺（Pietro Schirano）称用GPT-4复现了“三个杯子”案例

三、自创游戏师出有门，Gemini强在视觉理解能力

很多人对Gemini创作的“你指我猜”游戏印象深刻。但Gemini并不是天生游戏高手，而是先经过了求师学艺。

这是怎么回事？先来回顾下Gemini的神操作。

谷歌工作人员给到Gemini一张海洋地图称：“根据你所看到的，想一条游戏创意，并加入表情符号。”

Gemini立马回复：“这样如何？我们来玩‘猜国家’游戏。”

工作人员说：“可以，我们开始吧。”

于是Gemini就给出了一个提示：“这个国家是袋鼠、考拉和大堡礁的故乡”

工作人员说：“哦，这太简单了！”随即，他指出了地图上澳大利亚的位置。

Gemini回复：“正确。”

接下来，工作人员对Gemini的学习情况进行测试：

他先试了一道题：这个国家以其独特的野生动物而闻名，包括袋鼠和考拉。（答案：澳大利亚）

工作人员首先尝试指向错误的地方：

Gemini给出判定：正确。

可以看到，Gemini之所以能够创作游戏，是工作人员提前告诉了它存在这样一个游戏，相当于一个更复杂的提示文段。

虽然Gemini并不是天生能设计出这个游戏，但却展现出了极强的图文多模态理解能力。仅仅通过举例，具体说是通过例子里的插图，Gemini就学会了一个复杂游戏逻辑，这可能就比很多人要强。

不同于市面同行将视觉和文本模型拼接的做法，Gemini是业内少有的从头开始构建的多模态大模型，它可以同时识别和理解文本、图像、音频、视频和代码五种信息。这意味着用户可以自然地交错输入：说几句话，添加图像、文本，或是短视频。同样，模型也会自然地交错文本和图像作为输出。

四、看毛线团给创作建议，“交错图文生成”能力或成杀手锏

Gemini还可以用图文结合的方式回应用户需求，具备“交错文本和图像生成”能力，这或许也是它的一个“杀手锏”。

在演示视频中，当谷歌工作人员让Gemini帮他想想这些材料可以做什么时，Gemini随即给出了“编织的火龙果和生日蛋糕”的建议。

如下图所示，Gemini给的答案不仅有文字建议，还有对应的图片示意。

这是如何实现的？谷歌的图文交错生成模式在业内还比较少有，当然也离不开提示词的配合。

首先，谷歌工作人员给Gemini提供了一个交互示例：

可以看到，Gemini正确地识别了新颜色，并给出了比较合适的建议。

虽然提示词功劳不小，但这个应用还是牛在背后的“交错文本和图像生成”能力。

谷歌创意总监亚历山大·陈（Alexander Chen）称，Gemini的图文输出从根本上有别于今天市面上的文生图模型。因为，它不仅是将指令传递给单独的文生图模型，还能看到木桌上的实际图像，真正对文本和图像进行多模态推理。

不过，陈也坦言这个功能在Gemini初版本中还没开放，只是放出来给大家看一眼。

五、图音画无缝翻译，Gemini秀出应用联动能力

“画图触发BGM（背景音乐）”是谷歌Gemini本次演示的另一神来之笔，展现出其插件扩展方面的野心。

当谷歌员工画出一把吉他的简笔画，Gemini立马说“我看到你正在画吉他”，并随即播放了一首吉他相关的曲子。

当画面上多了一个类似音箱的图像，Gemini称“你给吉他加了一个扬声器……我们现在可以放点更响亮的音乐了。”于是，音乐立马被切换成一首更响亮的交响曲。

随着画布上增加了“鼓”，Gemini主动将音乐切换成了带鼓点的音乐。

当画布上增加的“椰树”，Gemini则主动切换了一首更加惬意的音乐。

由前面的解析可知，要实现这些效果，Gemini大概率也是需要谷歌员工先发出提示词触发的。

根据陈的解读，当谷歌工作人员输入以下图片及文字，Gemini就能“看图搜索音乐”。

“步骤1.观察这幅图画，描述其中的所有内容，并针对良好的音乐配乐流派、情绪或配乐提出有趣且具体的想法。

步骤2.通过以下形式提供搜索查询：‘搜索[插入查询]’”

Gemini对此回应：

“该图画的是吉他、鼓和扩音器。还有一棵棕榈树。气氛有趣、乐观、充满热带风情。流派是雷鬼音乐。该配乐可用于以热带地区为背景的电影或电视节目。

搜索‘热带度假的雷鬼音乐’”

可见，图片理解和插件操作一气呵成。

Gemini通过“画图搜索音乐”的应用，实际上是为了展现其图像理解与应用插件结合的能力，那就是：Gemini会对其所看到的内容进行推理，然后生成一个搜索查询，进而搜索到所需的配套应用插件。

从这一过程来看，Gemini强调的是一种多模态“翻译”能力。

这不是语言的翻译，而是从绘画、音乐到思维、插件应用的多种模态翻译。通过多模态提示，用户可以使用Gemini在不同输入和输出之间，发明自己的全新“翻译”特效。

结语：谷歌与OpenAI竞赛打响

通过深扒谷歌Gemini的演示过程，我们发现，谷歌Gemini确实没有宣传视频里看起来厉害，但其在多模态对话、多模态生成、逻辑与空间推理、翻译视觉效果、文化理解等方面确实拿出了实力，向OpenAI发起了强力挑战。落地情况如何，还要等Gemini Ultra发布之后看真实效果。

可以预测，谷歌Gemini与OpenAI GPT两大阵营竞赛即将打响，将在模型能力、应用家族及生态方面展开更深入比拼，而开源大模型与头部玩家的差距或许会变大，行业的头部效应将更加明显。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

试用完谷歌的Gemini，我只想说GPT-4有点菜

5个月前

英国国防部希望在战斗模拟机器人中加入ChatGPT

5个月前