“一些未知的东西正在做我们不知道的事情。”
阿瑟·爱丁顿
“为何不尝试制作一个模拟儿童思维的程序呢?”
艾伦·图灵
“只要是人脑能提出的问题,它就能够得到解决。”
库尔特·哥德尔
开始
传说中的扫地僧,在现实中极其罕见。有些僧,只是在假装扫地;而绝大多数“扫地僧”,并非真正的高僧。电影《心灵捕手》讲述了这样一个少年天才,清洁工“呆萌”在大学拖地板时,解出了麻省理工学院数学系教授给出的难题,他的天赋震惊了这位菲尔茨奖(数学界的“诺贝尔奖”)得主。M-P模型
M-P神经元是一个理想化的简单模型,基于生物神经元的基础特性进行建模。其工作原理如下:神经元接收一组二进制输入,每个输入都与一个权重相对应;当加权输入之和超过某个阈值时,神经元被激活并输出1,否则输出0。这种机制很好地模拟了生物神经元的"全部或无"的响应模式。M-P模型的影响力在于它是一个很好的开始,为后来复杂的神经网络模型铺平了道路。然而,M-P模型也有很大的局限性,比如它无法学习和调整自己的权重,以及只能处理二进制输入和输出。这个模型是人工神经网络和深度学习发展的基石。现代的神经网络模型比McCulloch-Pitts模型复杂得多,但是它们的基本原理——根据输入计算输出,并且有可能调整自身以优化这个过程——仍然是相同的。麦卡洛克和皮茨的论文不仅是人工智能历史上的一个重要里程碑,为理解大脑工作机制和发展人工智能打下了基础,还启发了人们:生物大脑“有可能”是通过物理的、全机械化的逻辑运算来完成信息处理的,而无需太多弗洛伊德式的神秘解释。麦卡洛克后来在一篇哲学文章里自豪地宣告:“我们知道了我们是怎么知道的,这是科学史上的第一次。”(本节部分参考了《人工智能简史》和《智慧的疆界》)
一
麦卡洛克和皮茨发表那篇里程碑式论文的同一年,艾伦·图灵正在布莱切利公园破译德国恩尼格玛密码机。他和团队用智慧拯救了数十万的生命,对盟军在二战中的胜利起到了关键作用。他们的交集同样与罗素有关。在20世纪初,数学家和逻辑学家都在试图找到一种能够将所有的数学真理减少到一套简单的公理和逻辑规则的系统。这就是著名的希尔伯特计划,由德国数学家大卫·希尔伯特提出。罗素及其合作者怀特海在《数学原理》一书中就做了这样的尝试,他们试图将数学基础建立在形式逻辑的基础之上。然而,希尔伯特计划在1931年遭到了挫败,因为哥德尔证明了他的不完备性定理。这个定理表明:任何足够强大的形式系统,都存在一些在该系统内部既不能被证明也不能被反驳的命题。图片来自《深度学习》一书。
上图是对当前多层次深度学习网络的隐喻:
1、从左到右,是从低到高的恶魔级别。
2、如果每个级别的恶魔与前一个级别的输入相匹配,就会兴奋(点火)。
3、高级别的恶魔负责从下一级的输入中提取更复杂的特征和抽象概念,从而做出决定。然后传递给自己的上级。
4、最终,由大恶魔做出最终决定。
《深度学习的数学》一书中,依照如上隐喻,用一个生动的例子,讲解了神经网络的工作原理。
问题:建立一个神经网络,用来识别通过 4×3 像素的图像读取的手写数字 0 和 1。
第一步:输入层
12个格子,相当于每个格子住一个人,分别编号为1-12。如下图。
第二步:隐藏层
这一层,负责特征提取。假设有如下三种主要特征,分为为模式A、B、C。如下图。
不同的模式对应着相应的数字格子的组合。如下图。模式A对应的是数字4和7,B对应5和8,C对应6和9。
第三步:输出层
这一层,从隐藏层那里获得信息。
这似乎是柏拉图洞穴理论的现代版。
看看,人是多么无知,又是多么分裂啊!
基于这样的结构,波普尔提出:我们无法证实这个世界,无法证实规律和定理,只能去证伪。
六
也许你还记得上一代的老实人工智能--深蓝。庞大的机器,手工制作无尽的代码,多名参与其中的职业棋手,以及暴力算法,虽然打败了卡斯帕罗夫,却如流星般闪过。《麻省理工科技评论》将深蓝形容为恐龙,而这一代的神经网络(尤其是深度学习)则是生存且改变地球的小哺乳动物。上世纪50年代,香农曾经乐观地预测AI将很快出现,事实并非如此。失败的主要原因是:人工智能的创造者们试图用纯粹的逻辑来处理日常生活中的混乱,他们会耐心地为人工智能需要做的每一个决定都制定一条规则。但是,由于现实世界过于模糊和微妙,无法以刻板的方式进行管理。
我们无法像是依照牛顿的原理造车般,用发条思维和专家系统来打造智能系统。那一类AI不仅狭窄,而且脆弱。ChatGPT是经验主义的进化论的“胜利产物”。经验主义亦称“经验论”。作为一种认识论学说,与“理性主义”相对。经验主义认为感性经验是知识的来源,一切知识都通过经验而获得,并在经验中得到验证。
这正是ChatGPT的思考和学习路径。
而虚拟进化又指数级放大了基于经验的学习速度。在波普尔看来,科学发展本身就是一种进化。
ChatGPT不仅从时间的角度加速模拟了进化,还通过大模型从空间的角度拓展了可能性之广度,以至于令人们禁不住又惊又喜地探讨起涌现。那么,人工智能是如何思考的?又是如何决策的?
有别于齿轮般的演绎推理,我们需要借助概率在证据和结论之间建立起联系。
AI的任务是做决策,在不确定性下结合信念与愿望,选择动作。
《人工智能:现代方法》如此描述:
由于部分可观测性、非确定性和对抗者的存在,真实世界中的智能体需要处理不确定性(uncertainty)。智能体可能永远都无法确切地知道它现在所处的状态,也无法知道一系列动作之后结束的位置。
此外,智能体的正确的动作——理性决策,既依赖各种目标的相对重要性,也依赖它们实现的可能性和程度。
为了进行不确定推理,我们需要引入信念度,例如牙痛患者有80%的概率存在蛀牙。
概率论提供了一种概括因我们的惰性与无知而产生的不确定性的方式。
除了概率,智能体在做决策时还需要一个概念:效用理论。
例如,你要去机场,假如提前90分钟出发,赶上飞机的概率是95%;提早120分钟出发,概率提升至97%。
那么,是不是应该越早越高,追求赶上飞机的最大概率呢?如此一来,你可能要提前一天或者更早住在机场了。
大多数时候不必如此,但假如你有一个无法错过的会议,或者要赶国际航班,提早一天住到机场,可能是最佳决策。万豪酒店最早就是靠洞察到商务人士的这一需求而崛起的。
由此,我们得出决策论的通用理论:
决策论=概率论 效用理论
以上的现代方法,离不开两个未曾谋面的古代敌手。
七
在诸多反对休谟的人当中,贝叶斯也许是最重要的一位。当休谟斩断了因果之间的必然联系时,最恼火的莫过于教会,因为上帝一直被视为因果的第一推动力。
一个人往往要到了一定岁数,才能够理解休谟的哲学。尤其是我们这些从小接受确定性训练的人。
逻辑推理的基本形式是:如果A,则B。
休谟则说,如上这类推理要么是幻觉,要么是胡说八道,要么是自圆其说。
据说虔诚且又擅长数学的牧师贝叶斯是为了反驳休谟,而研究出了贝叶斯公式。
一个神奇的结局出现了:
贝叶斯公式反而成为了休谟哲学的现实解药,将其大刀斩断的因果,用逆概率的悬桥连接了起来。
概率,将逻辑推理的形式修正为:如果A,则有x%的可能性导致B。
而贝叶斯公式,则完成了一个小小的(却产生了无法估量的巨大影响)由果推因的颠倒:
如果观察到B,则有x%的可能性是因为A导致。
如此一来,被休谟怀疑的世界,继续晃晃悠悠地构建出更为庞大繁复的、以概率关联的因果网络。
假如贝叶斯试图反击休谟的动机是真的,就为“要爱惜你的对手”添加了有力论据。
让我们用一个简单的贝叶斯计算,来看看智能体如何学习经验。
题目:黑盒子里有两个骰子,一个是正常骰子,扔出数字6的概率是1/6;一个是作弊骰子,扔出数字6的概率是1/2。
这时,你从中摸出一个骰子,扔了一次,得到一个6。
请问:你再扔一次这个未知的骰子,得到6的概率是多大?
计算的第一步,是计算这个骰子是正常骰子和作弊骰子的概率分别是多大。
请允许我跳过贝叶斯公式快速计算如下。
是正常骰子的概率为:1/6 ÷(1/6 1/2)=1/4
是作弊骰子的概率为:1/2 ÷(1/6 1/2)=3/4
计算的第二步,更新这个骰子的信息。原来的概率是各1/2,但现在分别是1/4和3/4。
那么,再扔一次,得到6的概率就是:1/4×1/6 3/4×1/2=5/12。
从本质层面理解如上这个简单的计算并不是容易的事情:
两次扔骰子都是独立事件,为什么第一次扔骰子得到6的概率和第二次的概率不一样?
贝叶斯概率的解释是,第一次扔骰子得到6的这一结果,作为信息,更新了我们对第二次扔骰子得到6的概率的判断。
疑惑的人会继续问:骰子没有记忆,为什么第一次的结果会“改变”第二次结果呢?
答案是:没有改变结果,只是改变了“信念”。
即使扔了两次骰子,我们依然不知道这个骰子是正常的还是作弊的,但我们可以带着这种不确定性向前走,为此需要“猜”这个骰子是正常还是作弊的概率。这个概率,就是信念。
根据信息的变化,快速更新,体现了某种达尔文式的进化。
从这个角度看,AI推理起初或许弱小含混,却有主动适应性,从经验中不断学习,并快速演化。
以本题为例:第二次扔骰子,从第一次骰子的结果中学习了经验,从而令预测更加精确。
这个过程还可以不断重复,如同发动机般,从而产生了决策和智能的杠杆效应。
如前所述,亚里士多德曾经认为,修辞和概率等不确定性元素,应该应用于人类社会。而在自然科学和数学领域,则是逻辑推理(尤其是数学逻辑)的阵地。
而如今,确定世界已经成为不确定世界,绝对真理也被或然真理替代。
于是,概率不仅成为“真理”的悬梯,甚至成为真理本身。
《人工智能:现代方法》写道,世界就是这样,实际示范有时比证明更有说服力。基于概率论的推断系统的成功要比哲学论证更容易改变人的观点。
就像两个人就不同的观点争论,一种办法是讲道理,讲逻辑;还有一种办法是:
我们先下个注,然后试着跑跑看呗。
OpenAI早期投资人里德·霍夫曼在尝试将 GPT-4 应用于工作中时,发现了以下三个关键原则。原则 1:将 GPT-4 视为本科生水平的研究助手,而非无所不知的预言家。
原则 2 :把自己当作导演,而非木匠。
原则 3 :勇敢尝试!
多么有趣的建议啊,我们从中看见了《园丁与木匠》与《自下而上》的智慧:
在大部分工作中,我们习惯于提前计划,力求避免失误。这是因为执行计划在时间和其他资源上都耗费巨大,“三思而后行”的说法指的就是这种情况。
但如果实施计划比思考它更加省时省力呢?
霍夫曼认为这正是 GPT-4 及大语言模型令人费解的悖论所在。既然如此,正确的做法是:1、在比讨论制订计划更短的时间里,GPT-4 能为你生成一个完整的回应供你审阅。2、如果你对回应不满意,可以直接丢弃并尝试生成另一个。3、或者一次性生成多个版本,获得更多选择。我们已经来到了一个“三行而后思”的“强化学习”时代。
八
在《人工通用智能的火花:GPT-4的早期实验》的报告里,微软实验室如此表述:“我们过去几年,人工智能研究中最显著的突破是大型语言模型(LLMs)在自然语言处理方面取得的进展。这些神经网络模型基于Transformer架构,并在大规模的网络文本数据体上进行训练,其核心是使用一个自我监督的目标来预测部分句子中的下一个单词。”ChatGPT,是位“语言游戏”的高手,用的是神经网络和深度学习。这与传统的语言,以及逻辑语言,都不一样。罗素曾经试图构建一套逻辑语言,想从少数的逻辑公理中,推演出数学。他提出了自己逻辑原子主义,试图消除那些形而上语言的混乱,以逻辑语言和我们的现实世界一一对应。在与罗素的相互影响下,维特根斯坦认为哲学的所有问题其实就是语言问题,从而推动了哲学的语言转向。一种西方哲学史观点认为:古代哲学关注本体论,近代哲学关注认识论,20世纪哲学关注语言学问题。那么,作为“系统地从语言来思考世界的第一人”,维特根斯坦与罗素有何不同?
陈嘉映的论断是:罗素从本体论来思考语言的本质,维特根斯坦则一直从语言的本质来构想本体论。
也许我们能从罗素给情人奥托林·莫雷尔夫人一封信里,发现维特根斯坦哲学上的某些经验主义线索:
“我们这位德国工程师啊,我认为他是个傻瓜。他认为没有什么经验性的东西是可知的——我让他承认房间里没有一头犀牛,但他不肯。”
和每个天才一样,维特根斯坦卓绝,但也疑惑。再说回ChatGPT,它懂语言吗?如同《天才与算法》一书的设问:机器可以在不理解语言或不接触周围物理世界的情况下,生成有意义的句子,甚至是美的句子吗?老派的AI,试图采用罗素的方法。这类模型认为:“理性和智能是深度的、多步骤的推理,由一个串行过程指挥,并由一个或几个线程组成,使用少量的信息,由少量的强相关变量来表达信息。”
对比而言,“现代的机器学习模式由浅(少步)推理组成,使用大量信息的大规模并行处理,并涉及大量弱相关变量。”一个有趣的来描述二者对比的例子是,电影《模仿游戏》里的图灵,炒掉了自己的密码破解小组里的语言学专家。《人工智能:现代方法》认为,纯粹的数据驱动的模型,对比基于“文法、句法分析和语义解释”的手工构建方法,更容易开发和维护,并且在标准的基准测试中得分更高。该书作者还提及:可能是Transformer及其相关模型学习到了潜在的表征,这些表征捕捉到与语法和语义信息相同的基本思想,也可能是在这些大规模模型中发生了完全不同的事情,但我们根本不知道。
未必那么精确的类比是:AI如孩子般学习语言。这正是当年图灵所所设想的:有一个孩子般的大脑,然后去学习。而非一开始就设计一个成年人的大脑。孩子不懂语法构建,也没有成熟的逻辑,也远没有成年人那样有主动的刻意练习。可是想想看,成年人学习语言的效率,与孩子对比,是不是烂到渣?我不禁联想起一个对教育的嘲讽:天生就是语言学习天才的孩子,却要在一辈子都学不好一门语言的成年人的指导下学习语言。让我们来看看,AI如何像一个孩子般,天才般地学习。九
神经网络和深度学习经历了并不算短暂的黑暗期。
从上世纪80年代开始的整整30年间,只有很少一部分相关研究者义无反顾地投身其间,他们饱受怀疑,也几乎拿不到科研经费。
也许是由于这个原因,深度学习三巨头辛顿(Hinton)、本吉奥(Bengio)、杨立昆(LeCun)似乎都和加拿大有些关系,他们退守在那里研究、教学、读书。这倒是很符合那个“傻国家”的气质。
一个让人“心酸”的细节是,2012年辛顿带着学生在 ImageNet 图像识别比赛上拿了冠军,商业公司蜂拥而至。辛顿教授开出的商业报价,只是区区一百万美元。
(后来谷歌以4400万美元“中标”。)
“老派”AI,使用明确的一步步指令指引计算机,而深度学习则使用学习算法从数据中提取输入数据与期望输出的关联模式,正如上一节的演示。
众所周知,漫漫长夜之后,随着人类计算机算力和数据的指数级增长,深度学习一飞冲天,从阿尔法狗一战封神,再到ChatGPT征服全球。
为什么是Open AI,而不是DeepMInd?我对此略有好奇。
OpenAI的联合创始人兼首席科学家伊利亚·萨特斯基弗,是辛顿在多伦多大学带的学生。
他似乎延续了辛顿对深度学习的信仰,并且勇于全力下注。
辛顿认为“深度学习足以复制人类所有的智力”,将无所不能,只要有更多概念上的突破。例如“transformers”利用向量来表示词义的概念性突破。
此外,还要大幅度增加规模,包括神经网络规模和数据规模。例如,人脑大约有100万亿个参数,是真正的巨大模型。而GPT-3有1750亿个参数,约比大脑小一千倍。
神经网络模仿了人类的优势:处理有大量参数的少量数据。但人类在这方面做得更好,而且节能许多倍。
先行一步的DeepMInd,其发展方向和速度,除了陷入与谷歌的“商业VS科研”的两难纠缠,还不可避免地受到哈萨比斯的AI哲学观的影响。
哈萨比斯认为不管是ChatGPT,还是自家的Gopher,尽管可以帮你写作,为你绘画,“有一些令人印象深刻的模仿”,但AI“仍然不能真正理解它在说什么”。
所以,他说:“(这些)不是真正的意义上的(智能)。”
哈萨比斯的老师,MIT的Poggio教授更尖锐地指出:深度学习有点像这个时代的“炼金术”,但是需要从“炼金术”转化为真正的化学。
杨立昆反对炼金术的提法,但他也认为要探究智能与学习的本质。人工神经元受到脑神经元的直接启发,不能仅仅复制大自然。
他的观点大概是,工程学实现了的东西,也只有通过科学打开黑盒子,才能走得更远。
“我认为,我们必须探究智能和学习的基础原理,不管这些原理是以生物学的形式还是以电子的形式存在。正如空气动力学解释了飞机、鸟类、蝙蝠和昆虫的飞行原理,热力学解释了热机和生化过程中的能量转换一样,智能理论也必须考虑到各种形式的智能。”
几年前,巅峰时刻的哈萨比斯就表达过,仅靠神经网络和强化学习,无法令人工智能走得更远。
类似的反思,也发生于贝叶斯网络之父 Judea Pearl。
他说,机器学习不过是在拟合数据和概率分布曲线。变量的内在因果关系不仅没有被重视,反而被刻意忽略和简化。
简单来说,就是:重视相关,忽视因果。
在Pearl看来,如果要真正解决科学问题,甚至开发具有真正意义智能的机器,因果关系是必然要迈过的一道坎。
不少科学家有类似的观点,认为应该给人工智能加上常识,加上因果推理的能力,加上了解世界事实的能力。所以,解决方案也许是“混合模式”--用神经网络结合老式的手工编码逻辑。
辛顿对此颇为不屑,一方面他坚信神经网络完全可以有推理能力,毕竟大脑就是类似的神经网络。另一方面,他认为加入手工编码的逻辑很蠢:
它会遇到所有专家系统的问题,那就是你永远无法预测你想要给机器的所有常识。
AI真的需要那些人类概念吗?阿尔法狗早已证明,所谓棋理和定式只是多余的夹层解释而已。
关于AI是否真正“理解”,真正“懂得”,真正有“判断力”,辛顿以“昆虫识别花朵”为例:
“昆虫可以看到紫外线,而人类不能,所以在人类看来一模一样的两朵花,在昆虫眼中却可能截然不同。那么能不能说昆虫判断错误了呢?昆虫通过不同的紫外线信号识别出这是两朵不同的花,显然昆虫没有错,只是人类看不到紫外线,所以不知道有区别而已。”
我们说AI“不懂”什么,会不会是过于以人类为中心了?
假如我们认为AI没有可解释性,算不上智能,可会不会是即使AI解释了,我们也不懂?就像“人类只有借助机器检测,看到两朵花的颜色信号在电磁波谱上分属不同区域,才能确信两朵花确有不同。”
从十几岁开始,就相信“模仿大脑神经网络”的辛顿,仿佛有某种宗教式的坚定。
于是,在某个路口,哈萨比斯略有迟疑,而伊利亚·萨特斯基弗则和辛顿一路向前,豪赌到底。
辛顿的人生哲学是“基于信仰的差异化”,他的确也是如此实践的。
如今,尽管哈萨比斯认为ChatGPT仅仅是更多的计算能力和数据的蛮力,但他也不得不承认,这是目前获得最佳结果的有效方式。
十
对AI路线的分歧,不过是一百多年来某类科学暗涌的延续。
相当长的岁月里,在大雪纷飞的多伦多,辛顿几乎是深度学习唯一的守夜人。
他本科在剑桥大学读生理学和物理学,其间转向哲学,拿的是心理学学士学位,后来再读了人工智能博士学位。
辛顿等人在统计力学中得到灵感,于 1986 年提出的神经网络结构玻尔兹曼机,向有隐藏单元的网络引入了玻尔兹曼机器学习算法。
如下图,所有节点之间的连线都是双向的。所以玻尔兹曼机具有负反馈机制,节点向相邻节点输出的值会再次反馈到节点本身。
玻尔兹曼机在神经元状态变化中引入了统计概率,网络的平衡状态服从玻尔兹曼分布,网络运行机制基于模拟退火算法。
许多年后,当人们追溯神经网络波澜起伏的发展历程,总会来到起点:麦卡洛克和皮茨共同构建的丰碑。
就像我们来到大江大河的源头,发现不过是一处小小的溪流。
哥德尔曾在哲学手稿中留下一句话:世界的意义就在于事实与愿望的分离,即事与愿违。
我更愿意用纪伯伦的话语来代替哥德尔的迷惘,尽管就底层而言也许是同一件事。诗人说:
我们活着只为了去发现美,其他一切都是等待的种种形式。
(完)
相关文章
猜你喜欢
成员 网址收录40404 企业收录2983 印章生成238804 电子证书1060 电子名片60 自媒体58417