小白:是的,身为一个写小说的,我一向认为叙事创造了世界。但是在大模型中,如你所说,它处理和恢复信息,然后把剩下的交给一个“世界模型”,最终处理结果正确无比,缺乏的倒正是人类经验那种含混模糊而多义的性质,也不会具有人类经验那种千人千面构成的庞大复调。我总是在想,机器懂得隐喻吗?正是在这一点上,你先前所说的大模型超强的联想能力,与我们人类大脑中的那种联想,究竟能不能等同视之?我们知道,侯世达在《表象与本质》中把这种类比和联想,以及通过类比实现的范畴化,视为人类认知核心,是思想之源。
张峥:联想,还有联觉,是特别有意思的现象。我们最近发现,大模型的联想能力很强。事实上,如果没有这一步,也不会有从纯粹统计意义上的接龙,变成能被定向培训出解决各种任务的能力。我有一个比较奇怪的感觉,就是随着这一波新模型的出现,AI和人脑从架构上来说越走越远,越来越无法用AI的结构来解构大脑,但是从功能上讲倒是越来越近。当然,这只是我现在的猜测。
我记得里尔克有一首诗,描述高原上的羚羊在跳跃之前,就像“上了膛的枪”,这是神来之笔!不过,如果我们解构一下,把世间万物按照移动速度排个序,那么想到用子弹和枪来做比,不是很自然的路径吗?在大模型出现之前,我考虑过不少方法去模拟产生这样的联想,现在在大模型上观察到,一点不吃惊,因为“像”,就是一个最简单的“逻辑”,语料吃多了,这能力就彰显出来了。
小白:所有先前说的那些类比、联想、隐喻、记忆/遗忘,也许如你所说,机器也能办到。但我觉得都只能是表现上的相似。GPT是自然语言生成,我们也可以把它理解为机器写作(至少在表面上)。既然是机器写作,我们可以举一个人类写作的典范来与它比较,我最近在读英国女作家曼特尔的《镜与光》,我就以小说主人公克伦威尔与西班牙大使查普伊斯那些对话来举例,在小说中,这两个人物有大量对话。这些对话每一句背后都指向一些跟宫廷政治有关的强烈冲突,包含了大量历史知识,但这些知识都不是以清晰准确的“知识形式”而呈现在文本中。曼特尔对中世纪那段历史做了巨量阅读,这个过程就像机器大模型喂文本,喂数据集。但是曼特尔喂进大脑的那些历史知识,并不是以“知识”形态储存于头脑某处(不管是突触或DNA),通过记忆/遗忘机制的加工,它们转化成了类似于作者本人亲身经历或者耳濡目染的“个人经验”,而且这些经验同时也是具身的,也就是说与她的身体意识相关。所以当她写作这些对话时,环境随时辰天气而发生的细微变化、一些微小的心理感受、难以察觉的下意识动作与那些历史“事件知识”都糅合在一起。而那些环境、心理、动作也同样来自真正的历史知识,也许来自古老文本,也许来自古画,也许来自戏剧,但它们都转化成了作者个人性/身体性经验,作者不会记得这些经验到底来自哪里,但在写作时,她可以极其自由地使用它们,不断转换视角,不断切入人物内心,又忽然转变成自由间接文体,而这些变化并不是随意随机的,它们统一于文本/作者意图。统一于——我们可以说,身体。
但短痛是必然的,而且影响会非常大。原因是信息化技术革命之后这二三十年产生了大量的内容,也大大提高了生产效率,也为此衍生了丰富的生态圈(课外补习编程就是一例),这其中如果就是百分之五十被AI取代,都是非常巨大的变化。
小白:如果一半人口工作受到威胁,我们会说那是灾难性的,可能会造成社会崩溃,而不能仅仅理解成巨大的变化,失业率增加几个百分点都会造成社会动荡不宁,百分之五十,这个数字其实是无法承受的,也是无法想象的。在那个人工智能将人类极大解放的时刻到来之前,也许人类社会就分崩离析了。
张峥:我们可以想象一下会出现哪些变化。第一种将直接洗牌和破坏现在的生态,扰动人力市场,这也是大家最担心的。第二种是变成GPT的人肉外挂,给GPT找错,比如过滤虚假信息。就我对GPT的训练过程的了解,现在事实性的错误还不少,也没有很好的手段根治。这两种机会,都是现在肉眼可见的。第三种是创造性地开发新的工种,我能想到一些个性化教育的可能性,但有多少容量很难说。我看到可汗学院开始搭上GPT4了。2012年开始我从大系统转做AI研究,数学底子跟不上了,在那个平台上自学过不少,非常喜欢。可汗学院的机器人有两种,一种是个性化的辅导老师,这种“对齐”的是循循诱导类的好老师。另一种可以给老师提建议,做辅导计划。可汗学院这种全面出击的姿态非常吸引人。这肯定是一个长期的社会工程,而且要在GPT扰动生态的过程中做,需要很强的定力。
不过,我们应该看到一点,和GPT互动的工作模式,主要是提问,而要把GPT用好,还要有质疑的能力。而提出好问题的能力,敢于质疑的勇气,不正是中国教育中相当缺乏的吗?有GPT来逼一逼,未尝不是一件好事。不过,诚实地说,我这种愿望,其实是有些底气不足的。
小白:不管未来能创造出什么新形态的工作,总量上一定大大少于机器智能还未能大一统的现在。你先前所说“高创造性”的那部分工作,我其实对你的乐观有点怀疑。大模型无论如何都是基于统计和概率,我知道大模型之大可以覆盖长尾,但人类会越来越依靠它的输出来思考,可是它“对齐”、它选择大概率、它对“高级”和“低级”文本一视同仁都只是训练数据,它会不会让人类整体思考趋向于一个对齐的中间值?
张峥:新一代的AI模型的出现,带来一个有趣的现象:中间值趋势——这不是一个具体可以量化的数值,而是一个感觉,就是在各种对齐税的驯化下,模型的回答中规中矩,不左不右。
假定事实性错误会被最终解决掉,那么我觉得中间值趋势会带来一个好处,一个坏处。好的地方在于低于这个中间值的(人类)观点会被迫对齐,这种提升是有益的。坏的地方是如果中间值过于强大,会制约进步,使得中间值止步不前,导致整个文明的停顿。
但人类的天性就是“作”不是吗?不“作”也不会出现GPT。将来的GPT,可能把人类文明捆绑成一个中间值不动了,也可能加速中间值的变化,现在很难看清楚。
小白:我相信当未来芯片技术有新的巨大发展,也许我们可以在个人终端上训练自己的模型,而且模型本身也能具备快速学习即时经验的能力,到那个时候,我们先前说的一些问题,比如中心化、比如过度“对齐”都可以得到解决。但在相当长一段时间内,目前形态的大模型将会“统治”我们的工作方式和思想方式。在这种情况下,我们可能没有机会发展出一种更好的机器智能,你觉得呢?
目前这种人工智能技术的设计和研究,其技术发展的路径是完全按照资本的逻辑来部署的。就像互联网,我们原以为它会给人们广阔的自由发展空间,如今却日益让人发现它更像是一个把所有人分别阻隔在其中的透明“泡泡”。每个人都像呼出二氧化碳那样排放出大量数据,而这些数据被资本拿去,先是作为互联网大平台的养料,现在又开始“滋养”人工智能大模型。但按照这个逻辑来部署的超级人工智能,究竟能不能对我们每个人有好处?它会不会阻拦真正好的人工智能的诞生,就像因特网一样?我们对未来的展望总是有些大而化之:这一大堆是有益的,那一堆是风险,我们要尽量避开风险,但无论如何要继续发展……像这样大手一挥,我们其实忘记了,通往好的人工智能的道路是一条极窄的路,路两边全是风险,要行得通,不仅需要保持平衡,还要对先后次序有清晰的战略,到底哪只脚先跨出去,不是资本逻辑能判断的。
张峥:OpenAI的初心倒是反资本的,是因为害怕DeepMind一家独大,要做完全开源的AI研究。七年下来,结果又颠倒了,至少在微软赚够了钱之前不会再翻转回来。从这点上来说,确实不得不说资本的逻辑强大。
我最近在读一本砖头一样厚的美国历史,正在重温十九世纪初的美国,废奴运动有很多推动力,但和机器是一种新“奴隶”、 长尾给了一个参照物有一些关系。没想到两百年后,我们又开始担心会不会被集体降格成一种另类的“奴隶”。关于未来,我一直很喜欢《她》(HER)这部电影,觉得这可能是最乐观的结局了。不过,人类毕竟也是“老战士”了,说不定有勉力胜出的机会也难说。
一个可以预见的场景是手机上植入一个基础版的助手,需要专家类知识可以联网,即用即弃,按需付费。现在GPT4的模型除了要联网搜索之外,本身还是一个巨无霸,实在太“胖”了,也太“热”了,你说要存下人类历史上所有的知识和代码,得多大一个脑袋?芯片技术要发展到什么程度才能把将来的GPT全部植入大脑,我有点怀疑。很可能再怎么着都要拖一根辫子(天线)的。
极端个人化的世界,社会必然分崩离析,有了个人AI的加持,说不定死得更快;一个AI中心统治天下,文明无法往前滚动,或者滚得特别慢,非但没加速反而踩了刹车……这两种都可能的。如何走出怪圈呢?我反问一句:你们写小说的,现在不上,什么时候上?
小白:我们可以设想那样一个世界:这个世界有无数个小模型和若干大模型。小模型和大模型不能说完全势均力敌,但是仍然可以相抗衡。
张峥:这里有几个概念要先澄清一下,首先大模型之大是为什么?有必要这么大吗?我的看法是没必要。用同样的数据量来训练,现在普遍接受的看法是大模型容易优化,小模型难训,需要更多的时间。但我觉得大模型训完之后它的解空间不平滑,而生成结果是一个采样的过程,大模型容易踩到坑里,容易胡说(特德姜说大模型就是一张模糊的JPEG图片,其实没抓到根本)。小模型如果能训出来,解空间应该稠密一些,说不定效果更好呢,这只是一个直觉,有可能不对,因为这么高维度的空间,非常难理解透彻。几周前斯坦福大学有一个结果,用了七十亿参数的小模型可以和谷歌的几千亿参数的大模型在一些任务上打成平手,这是很鼓舞人心的结果。第二,之前我说过现在的模型都是全盘通吃的大胖子,这是一个非常不灵活的系统,接专业外挂是更合理的结构,OpenAI最近的动作正是如此。
在解决了这两个问题之后我们可以问,一个有用的“小”模型的底线是什么?我的看法是也不能太小,因为必须要有融会贯通的世界模型和基本的知识,不然就会很弱智,团结了再多的小模型,也是乌合之众。
那么你想象的抗衡应该在哪里呢?我觉得这部分的战斗现在连兵器都还没造出来,但将来会,那就是“算计”的本领——在“脑”子里多转几圈,别张口就来。到那时候就是比谁算计得多。这挺像下棋,一千个臭皮匠,每个人算三步,和一个能算一百步的诸葛亮比试一下,你说胜算有多少呢?
要么小模型们能找到葵花宝典,或者就像电影《瞬息全宇宙》里教育我们的,多一点点爱,爱可以解决所有问题,呵呵。
小白:前几天微软发布了一份一百五十四页的报告,据说原先他们为这篇报告起的标题叫做“与通用人工智能的第一次接触”。也许是觉得这个标题过于耸人听闻,发表时改名为“通用人工智能的微火”。它介绍了微软在实验室针对GPT4所做的一些测试实验,我们由此看到,微软发布上线的GPT4版本,有很多能力是被限制了。这些实验展示了GPT4跨学科解决问题的能力、心智理论能力、真实世界空间和运动的推测能力、使用多种工具解决问题的能力、绘画作曲数学编程工作的生成能力。那份报告几乎就要说服我了,我越来越相信GPT4距离真正的通用人工智能,甚至超级机器智能很近了。特德姜说它是一个压缩图片,我觉得他可能搞错了,“压缩”的不是大模型的输出结果,而是它的训练方式。把对整个世界的理解,把对“世界模型”不断学习、 修正的过程,压缩进对文本“下一个字”的不断猜测中。那么教授,你如何看那份报告?
张峥:那份报告我读了,但不太仔细。这是学术文章中不怎么“正经”的“爽文”,我说不太正经不是在说他们做得不好,而是需要的测试非常难量化,标准也不一致,但我觉得方向是对的,就是不应该,也不需要再用传统的测试集,而是多用认知科学的材料。如果我有机会和他们交流的话,我会建议他们试试脑科学的一部分实验素材(比如各种错觉)——要真正对齐,机器应该和人犯同样的错误才行。
小白:我读了之后十分惊奇,甚至连线仿照报告中的实验也测试了一些问题。我原以为人工智能距离实现像人类那样的心智理论能力还很远,现在看来GPT4几乎已能够推测设定环境下特定人物的内心想法、观点和意图,甚至能推测多层意向性。
张峥:是的,有些结果很惊艳,尤其是组合性强的那些题目,找的路径非常直接有效。我看下来那些任务,对一个经过专门的、有针对性的训练的大学毕业生,都能顺利完成,包括实施机群攻击,找到代码反汇编等等。惊艳之处在于有些组合任务可能它之前都没见过,都完成得不错,这不得不说“通用”这部分是达标了。问题在于“智能”是什么?我觉得应该包括自我学习、反刍、更新、适应新环境,等等。这些并不在这篇文章的考察范围内,其实模型现在还没这个能力。
但你可能也注意到了,把一个笔记本、一本书、九个鸡蛋、一个杯子和一个钉子摞起来,这个三岁小孩都能做的事,它并没有通过。这是因为语言中能覆盖的世界模型虽然非常丰富,但有很多“不言而喻”的部分。既然没有落到纸上,它就没学到,或者即使有,在海量的数据中被湮没了,这和“父母是不是可以结婚”答不对是同一个原因。
不过,别高兴得太早了,既然我都注意到了,比我能干手快的同行多的是,打这个补丁不容易,但能做。我可以和你打个赌,这个补丁不会是中国同行会去做的,因为是一个基础工作,咱们都着急变现不是吗?我这么说,老实讲是留个口子,用激将法刺激一下。
你一定知道“人物的内心想法”是一个非常古老的哲学问题:怎么证明我现在对谈的你不是一个幻象,或者我不是你的幻想?Theory of Mind(TOM)的假设是说我和你都是同样的物理存在,也有同样的大脑,所以可以感受和猜测彼此。大卫·查尔莫斯(David Chalmers)在《现实 》(Reality )一书里对各个变种做了很好的梳理。我记得微软的这篇文章里对这问题也做了些测试,大模型也是白盒,虽然追究到单个神经元没有意义,但是看统计行为是可能的,所以我觉得这个古老的哲学问题,和自我意识是什么一样,都可以搁置了。
相关文章
猜你喜欢