> 自媒体 > (AI)人工智能 > 再反转! 揭开谷歌Gemini复仇GPT-4的底牌
再反转! 揭开谷歌Gemini复仇GPT-4的底牌
来源:智东西
2023-12-09 16:01:55
313
管理

▲谷歌发布了题为《如何制作:通过多模态提示与Gemini互动》的文章

今日,谷歌DeepMind研究与深度学习主管奥里奥·维尼亚尔斯(Oriol Vinyals)再度自证,在X平台上发文称:“视频中的所有用户提示和输出都是真实的,简洁起见做了缩减”,并发布了一段Gemini Pro的对应演示视频。

但原宣传视频是用Gemini Ultra演示的,因此这也招来网友质疑:“为什么不敢放出原视频?”

而根据谷歌方今天发出的第二次解读,用户首先需要输入一段关于模拟专家身份的说明,然后上传图片并输入视频中简短的提示词“这是正确的顺序吗?”,Gemini就会给出正确的答案。这一提示词前置的方法本质与上述做法类似。

工作人员啥也没说,Gemini就像一个人似的知道这是在变魔术,并根据手势变化给出了一波猜测,这实在让人匪夷所思。

Gemini为什么能不被“唤醒”就明白了工作人员想问什么?又为什么能看穿这个魔术?

前者很可能是一个剪辑后的效果,幕后演示应该是先有提示词。同时,Gemini对这一魔术的破解,也是在工作人员一步步的提示推动下完成的。

按照谷歌公开的制作过程,谷歌工作人员先输入一张照片说:“解释一下我在做什么。”

Gemini回答:“你右手拿着一枚硬币。”

▲开发者彼得罗·斯基拉诺(Pietro Schirano)称用GPT-4复现了“三个杯子”案例

三、自创游戏师出有门,Gemini强在视觉理解能力

很多人对Gemini创作的“你指我猜”游戏印象深刻。但Gemini并不是天生游戏高手,而是先经过了求师学艺。

这是怎么回事?先来回顾下Gemini的神操作。

谷歌工作人员给到Gemini一张海洋地图称:“根据你所看到的,想一条游戏创意,并加入表情符号。”

Gemini立马回复:“这样如何?我们来玩‘猜国家’游戏。”

工作人员说:“可以,我们开始吧。”

于是Gemini就给出了一个提示:“这个国家是袋鼠、考拉和大堡礁的故乡”

工作人员说:“哦,这太简单了!”随即,他指出了地图上澳大利亚的位置。

Gemini回复:“正确。”

接下来,工作人员对Gemini的学习情况进行测试:

他先试了一道题:这个国家以其独特的野生动物而闻名,包括袋鼠和考拉。(答案:澳大利亚)

工作人员首先尝试指向错误的地方:

Gemini给出判定:正确。

可以看到,Gemini之所以能够创作游戏,是工作人员提前告诉了它存在这样一个游戏,相当于一个更复杂的提示文段。

虽然Gemini并不是天生能设计出这个游戏,但却展现出了极强的图文多模态理解能力。仅仅通过举例,具体说是通过例子里的插图,Gemini就学会了一个复杂游戏逻辑,这可能就比很多人要强。

不同于市面同行将视觉和文本模型拼接的做法,Gemini是业内少有的从头开始构建的多模态大模型,它可以同时识别和理解文本、图像、音频、视频和代码五种信息。这意味着用户可以自然地交错输入:说几句话,添加图像、文本,或是短视频。同样,模型也会自然地交错文本和图像作为输出。

四、看毛线团给创作建议,“交错图文生成”能力或成杀手锏

Gemini还可以用图文结合的方式回应用户需求,具备“交错文本和图像生成”能力,这或许也是它的一个“杀手锏”。

在演示视频中,当谷歌工作人员让Gemini帮他想想这些材料可以做什么时,Gemini随即给出了“编织的火龙果和生日蛋糕”的建议。

如下图所示,Gemini给的答案不仅有文字建议,还有对应的图片示意。

这是如何实现的?谷歌的图文交错生成模式在业内还比较少有,当然也离不开提示词的配合。

首先,谷歌工作人员给Gemini提供了一个交互示例:

可以看到,Gemini正确地识别了新颜色,并给出了比较合适的建议。

虽然提示词功劳不小,但这个应用还是牛在背后的“交错文本和图像生成”能力。

谷歌创意总监亚历山大·陈(Alexander Chen)称,Gemini的图文输出从根本上有别于今天市面上的文生图模型。因为,它不仅是将指令传递给单独的文生图模型,还能看到木桌上的实际图像,真正对文本和图像进行多模态推理。

不过,陈也坦言这个功能在Gemini初版本中还没开放,只是放出来给大家看一眼。

五、图音画无缝翻译,Gemini秀出应用联动能力

“画图触发BGM(背景音乐)”是谷歌Gemini本次演示的另一神来之笔,展现出其插件扩展方面的野心。

当谷歌员工画出一把吉他的简笔画,Gemini立马说“我看到你正在画吉他”,并随即播放了一首吉他相关的曲子。

当画面上多了一个类似音箱的图像,Gemini称“你给吉他加了一个扬声器……我们现在可以放点更响亮的音乐了。”于是,音乐立马被切换成一首更响亮的交响曲。

随着画布上增加了“鼓”,Gemini主动将音乐切换成了带鼓点的音乐。

当画布上增加的“椰树”,Gemini则主动切换了一首更加惬意的音乐。

由前面的解析可知,要实现这些效果,Gemini大概率也是需要谷歌员工先发出提示词触发的。

根据陈的解读,当谷歌工作人员输入以下图片及文字,Gemini就能“看图搜索音乐”。

“步骤1.观察这幅图画,描述其中的所有内容,并针对良好的音乐配乐流派、情绪或配乐提出有趣且具体的想法。

步骤2.通过以下形式提供搜索查询:‘搜索[插入查询]’”

Gemini对此回应:

“该图画的是吉他、鼓和扩音器。还有一棵棕榈树。气氛有趣、乐观、充满热带风情。流派是雷鬼音乐。该配乐可用于以热带地区为背景的电影或电视节目。

搜索‘热带度假的雷鬼音乐’”

可见,图片理解和插件操作一气呵成。

Gemini通过“画图搜索音乐”的应用,实际上是为了展现其图像理解与应用插件结合的能力,那就是:Gemini会对其所看到的内容进行推理,然后生成一个搜索查询,进而搜索到所需的配套应用插件。

从这一过程来看,Gemini强调的是一种多模态“翻译”能力。

这不是语言的翻译,而是从绘画、音乐到思维、插件应用的多种模态翻译。通过多模态提示,用户可以使用Gemini在不同输入和输出之间,发明自己的全新“翻译”特效。

结语:谷歌与OpenAI竞赛打响

通过深扒谷歌Gemini的演示过程,我们发现,谷歌Gemini确实没有宣传视频里看起来厉害,但其在多模态对话、多模态生成、逻辑与空间推理、翻译视觉效果、文化理解等方面确实拿出了实力,向OpenAI发起了强力挑战。落地情况如何,还要等Gemini Ultra发布之后看真实效果。

可以预测,谷歌Gemini与OpenAI GPT两大阵营竞赛即将打响,将在模型能力、应用家族及生态方面展开更深入比拼,而开源大模型与头部玩家的差距或许会变大,行业的头部效应将更加明显。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
Meta探索基于HoloLens 2 + ChatGPT-3的AI生成式AR情景信息助理..
(映维网Nweon 2023年04月20日)对于追求减肥或学习一门新语言等高水平目..
从表演的角度看《天才枪手》,情感既是成长也是选择..
本文内容来自于网络,若与实际情况不相符或存在侵权行为,请联系删除。本..
不堪入目!高校研究院婚内同居同事、约女生,聊天记录和图片曝光..
不知从何时起,高校已不再是教书育人的单纯之地,教授、博士不断被爆出桃..
微信迎来“史诗级”更新!可以同步聊天了,网友:很实用..
平时在使用微信时你有没有这样的烦恼微信PC端与手机的聊天不同步太不方便..
只有GPT-4可以自我改进,GPT-3.5都不行,MIT\u0026微软代码实验新发现..
机器之心报道编辑:赵阳作为最领先的大模型,GPT-4 有自我纠正生成代码的..
专家认为GPT-3智商为120!那么它会反噬人类吗?
长久以来,AI终于做到了。它正式超越了我们,在智商测试中得分高于人类。..
GPT-4惊人升级!一天顶6个月,人类审核员面临取代?
本人在今日头条所发作品皆为原创首发,拒绝任何人任何形式搬运到其它平台..
ChatGPT:关于人工智能聊天机器人您需要了解的一切
ChatGPT 是 OpenAI 的文本生成人工智能聊天机器人,已经风靡全球。它能够..
骗子:退款1010元!杭州女子惊了:这一招真的行!
记者:徐冉 / 通讯员:方建兰“我从派出所出来了,他们说你是骗子,1000..
关于作者
婆罗花开(普通会员)
文章
372
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186762 电子证书796 电子名片49 自媒体20815

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索