> 自媒体 > (AI)人工智能 > ChatGPT大大大升级,这回谁要慌了?
ChatGPT大大大升级,这回谁要慌了?
来源:娱乐资本论
2023-10-31 22:17:17
368
管理

作者|James

Hello各位打工人!现在相信有一个问题非常困扰大家:

今天到底星期几?

很显然,如果我们想使用传统文生图方法,生成提示词是需要我们自己动脑的事情,但现在GPT已经承担了这个重任。当你点击具体的图片时,可以看到它使用了哪些提示词,并将其复制下来。在生成结果出现问题时,也可以通过分析提示词构成来发现问题所在,以及是否有可能改进。

由于成图的完成度非常高,图像裁切不需要的部分,以及往里面嵌字,甚至只需要使用Windows自带的画图就可以完成。

在下面的测试中,我们发现,如果你的指令非常简单,ChatGPT生成的作品或许有一些对东亚文化元素的刻板印象和挪用。例如:

请创作一幅中国庆祝三·八国际劳动妇女节的海报。主题是:“巾帼筑梦心向党,强国复兴勇担当”,但不需要在海报中出现文字。

接下来,我们尝试用必应搜索给我们总结,怎样优化提示词,让生成效果更贴近我们的需要。

尽管如此,如果你直接让ChatGPT改图,它依然大概率不会按照你的要求直接改动,这反映了DALL-E 3在识别prompt方面的局限。

如果你点开它更改过的prompt,就会发现不是提示词的问题,GPT实际上已经尽力了。所以,一次生成的图最好还是由人工在后期改动。

oil painting of a modern Shanghai ballerina, gracefully posing in front of iconic landmarks near the Bund. In the background, there's a plain red flag without any emblems, stars, or symbols, fluttering in the wind. The scene is dominated by red and gold hues, and a clear space at the bottom is reserved for potential text.

即使如此,我们也已经得到了几张最终效果很好的图片。

上述试用过程代表了一个总体趋势,即prompt微调的作用大大降低,我们文生图给AI下的指令将会越来越接近自然语言。

VOL.3GPT-4 识图

另一个最受欢迎的ChatGPT新功能,当然就是识别图片的含义。

在一些近期的测试中,GPT-4是可以读出一些幽默或者寓言故事中的潜台词,分析画面当中人物的心理和情绪。当然,这些都是重大的突破,但总体来说还是属于“常规动作”。

我们想看看它还能不能做更好玩的事情--比如看X光片。

医学影像行业是不是要被替代掉了?实际结果远远没有这么乐观。

我给了GPT一张有问题的X光片(这里不放原图,因为那是我自己的X光片),人类医生可以看到一颗劈裂牙和右下颌骨的一块含牙囊肿,但GPT并没有识别出任何问题。

回头看一下上面那张网图,它的问题是一样的,它知道这是牙片,但除此之外就没有然后了,它倾向于对看不出来、不确定的东西报喜不报忧,这点倒是跟“百度一下,我觉得我快挂了”完全相反。

看来,影像科室里看片的人类,目前还可以继续高枕无忧。

在不这么严肃的问题上,比如翻译一个外文广告牌,是可以胜任的。你可以将这个结果跟Jina.AI的同款产品做个对比。

翻译确实是ChatGPT的长项,图片识别更是让这一长处如虎添翼。不过,它具体胜任到什么程度,又取决于它基础知识的积累,在不那么熟悉的领域,比如翻译维吾尔文,照样“一本正经地胡说八道”。

接下来的测试在效果上可谓非常惊艳。我们在一个设计师常用的网站Dribbble上找了一些网页和APP的效果图,然后让它直接生成一个在浏览器中真的能打开的网页代码。

它完成了这个任务--非常出色。

虽然没有完全复刻效果图,但如果我完全不会前端代码,又想从零开始做,那么它已经能让我做出一个可用的东西。甚至因为它的实现与效果图中细微的区别,还可以说它给原作“洗稿”了。这可能是运用GPT的发散思维能力的一个最佳案例。

经过4-5次提示词调整后,成品如下:

可以说,动嘴修改的成功率远高于之前预想,而且再怎么说,也比不断微调代码要简单多了。这样一来,各位文字工作者们可以用前所未有的简单方法,来试着搭建自己的作品集或个人网站。

VOL.4谁要慌了?

回头再看一看我们所做过的这些测试:

不需要懂英文,就可以用自然语言让DALL-E 3作画,效果逼近Midjourney;

可以识图、在热门语言之间翻译图像内容;

将一个画出来的界面图转换为真正的网页,不会前端技术也可以设计自己的网站……

这些进化,给人最大的感受就是意料之外,情理之中。仔细一思考就会发现,这些功能只是对原本GPT-4基础能力的巧妙运用,将原本相互分离的不同模态结合在一起,就化腐朽为神奇了。

在识图和绘图时,GPT仍然会瞎编,因此仍然需要你的专业知识来补充那些它不掌握的领域,做事实核查,并决定如何剪裁和应用它的回答。

这进一步强化了我们对GPT的理解,它是一个为现有从业者提供的工具,可以增强你现有的能力,但不能自主产生知识,只能根据你的思路进行操作。

ChatGPT不会取代我们的大多数读者,但是会更好地帮助我们。但是,当然也会有人看到这些进步之后感受到真实的恐慌。

1

比如我们一直在对比的Midjourney本尊:对于普通用户,既然手头已经有一个效果上与MJ相差不多的工具,数量又几乎没有限制,还不用额外掏钱,那为什么还要再买MidJourney呢?这种搭配组合将用户更深度地绑定在OpenAI的体系内,也让GPT每月20美元的月费变得越来越物超所值。

2

比如各种国产大模型的开发者:作图精度,语义理解这些,目前ChatGPT都是几个最强的合在一起,让GPT与国产大模型之间的差距似乎成了更加难以逾越的天堑。但是,开源领域仍然可以继续追赶,类似于LLaMa的图片应用LLaVA也出现了。

3

比如第三方整合各家服务的开发者们,可能需要重新思考自己的开发方向。例如,趁着不是所有大模型都有多模态的空当,可以在第三方应用中被智能地调用最适合的模型,以执行相关任务。这样,用户将能够使用各个领域中的最优解,我们之前采访过的Jina就是正在做这样的工作。

我们期待第一方或者第三方服务,可以将现有分散在不同模态上的能力真正的组合起来,而不是说互相独立地放置。

ChatGPT的进步说明,Openai或MJ树立起来的壁垒并不是绝对无法攻破的,只是后来者需要花费几个月、半年或一年的时间差来赶超。对于后来者来说,坚持下去而不倒闭,可能就是胜利的关键。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
清水大树(普通会员)
文章
604
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索