编辑:编辑部
【新智元导读】谷歌研究院和斯坦福HAI的两位专家发文称,现在最前沿的AI模型,未来将会被认为是第一代AGI。最前沿的LLM已经用强大的能力证明,AGI即将到来!
通用人工智能(AGI),其实已经实现了?
最近,来自谷歌研究院和斯坦福HAI的大佬发文称,现在的大预言模型就是通向AGI的正确方向,而且现在最前沿的模型,已经拥有AGI的能力了!
这两位作者都是AI业界大佬,Blaise Agüera y Arcas现在是Google Research副总裁兼研究员,曾经也在微软任职。主要研究领域是人工智能基础研究。
Peter Norvig是一位美国计算机科学家,是斯坦福AI研究所研究员,也是Google Research的工程总监。
最近,我们看到了一些前沿模型,它们无需进行针对性的训练,就能完成各种各样的任务。
可以说,这些模型在五个重要方面实现了通用人工智能的能力:
- 话题(Topic)
前沿模型是通过数百千兆字节的文本训练而成,这些文本涵盖了互联网上几乎所有讨论过的话题。其中,一些模型还会在大量多样化的音频、视频和其他媒体上进行训练。
- 任务(Task)
这些模型可以执行各种任务,包括回答问题、生成故事、总结、转录语音、翻译语言、解释、决策、提供客户支持、调用其他服务执行操作,以及组合文字和图像。
- 模态(Modalities)
最受欢迎的模型主要处理图像和文本,但有些系统也能处理音频和视频,并且有些与机器人传感器和执行器相连。通过使用特定模态的分词器或处理原始数据流,前沿模型原则上可以处理任何已知的感官或运动模态。
- 语言(Language)
在大多数系统的训练数据中英语所占的比例最高,但大模型却能使用数十种语言进行对话和翻译,即便在训练数据中没有示例的语言对之间也可以实现。如果训练数据中包含了代码,模型甚至可以支持自然语言和计算机语言之间的「翻译」(即通用编程和逆向工程)。
- 可指导性(Instructability)
这些模型能够进行「上下文学习」,也就是根据提示而不是训练数据来进行学习。在「少样本学习」中,一个新任务会配有几个输入/输出示例,然后系统会基于此给出新的输入对应的输出。在「零样本学习」中,会描述一项新任务,但不会给出任何示例(例如,「以海明威的风格写一首关于猫的诗」)。
「通用智能」必须通过多个维度来考虑,而不是从单一的「是/否」命题。
此前,弱人工智能系统通常只执行单一或预定的任务,并为此接受明确的训练。即使是多任务学习,也只能产生弱智能,因为模型仍在工程师设想的任务范围内运行。事实上,开发弱人工智能所涉及的大部分艰巨工作,都是关于特定任务数据集的整理和标注。
相比之下,前沿语言模型可以胜任几乎所有人类可以完成的任务,这些任务可以用自然语言提出和回答,并且具有可量化的性能。
对于通用人工智能来说,上下文学习能力是一项意义重大的任务。上下文学习将任务范围从训练语料中观察到的事物,扩展到了所有可以被描述的事物。因此,通用人工智能模型可以执行设计者从未设想过的任务。
论文地址:https://arxiv.org/pdf/2304.15004.pdf
比如,对于一个由一系列五位数算术问题组成的测试。小模型几乎都不可能回答对,但随着模型规模的不断扩大,将会出现一个临界阈值,在此阈值之后模型将正确回答大部分问题。
这个现象会让人觉得,计算能力是从规模足够大的模型中突然涌现出来的。
但是,如果测试集中也包括一到四位数的算术题,并且如果评分标准改为只要能算对一些数字就能得分,不一定非要像人类一样算对所有数字才能得分的话。
我们会发现:随着模型大小的增加,模型的性能是逐渐提高的,并不会突然出现一个阈值。
这个观点对超级智能能力或者属性(可能包括意识)可能突然神秘地「涌现」的观点提出了质疑。而「涌现论」确实让大众甚至是政策的制定者产生了某种程度的恐慌。
论文地址:https://arxiv.org/pdf/2306.04637.pdf
- 以正确的方式将多个神经网络堆叠在一起会产生一个模型,该模型可以执行与任何给定计算机程序相同的计算。
论文地址:https://proceedings.mlr.press/v202/giannou23a.html
- 提供任意由计算机算出的函数的输入和输出示例,神经网络都可以学会如何逼近这个函数。(比如99.9%的正确率。)
语言模型通过将图像编码线性投影到语言模型的输入空间来生成图像的标注
近年来,人们设计了大量针对与「智能」、「知识」、「常识」和「推理」相关的认知任务的测试。
其中包括无法通过记忆训练数据来回答但需要概括的新问题——当我们使用测试对象在学习期间没有遇到过的问题来测试他们的理解或推理时,我们要求测试对象提供同样的理解证明。
复杂的测试可以引入新的概念或任务,探索考生的认知灵活性:即时学习和应用新想法的能力。(这就是情境学习的本质。)
当AI批评者努力设计新的测试来测试当前模型仍然表现不佳时,他们正在做有用的工作——尽管考虑到更新、更大的模型克服这些障碍的速度越来越快,推迟几周可能是明智的选择(再次)急于声称人工智能是「炒作」。
人类凭什么是「独一无二」的?
只要怀疑论者仍然对指标不为所动,他们可能不愿意接受AGI的任何事实性的证据。
这种不情愿可能是由于想要保持人类精神的特殊性的愿望所驱动的,就像人类一直不愿意接受地球不是宇宙的中心以及智人不是「生物伟大进化」的顶峰一样。
确实,人类有一些特别之处,我们应该保持他们,但我们不应该将其与通用智能混为一谈。
有些声音认为,任何可以算作通用人工智能的东西都必须是有意识的、具有代理性、能够体验主观感知或感受感情。
但是简单推理一下就会变成这样:一个简单的工具,比如螺丝刀,显然有一个目的(拧螺丝),但不能说它是自己的代理;相反,任何代理显然属于工具制造者或工具使用者。
螺丝刀本身「只是一个工具」。同样的推理也适用于经过训练来执行特定任务的人工智能系统,例如光学字符识别或语音合成。
然而,具有通用人工智能的系统很难被归类为纯粹的工具。前沿模型的技能超出了程序员或用户的想象。此外,由于LLM可以被语言提示执行任意任务,可以用语言生成新的提示,并且确实可以自我提示(「思维链提示」),所以前沿模型是否以及何时具有「代理」的问题需要更仔细的考虑。
由于依赖于无法验证的某种「信仰」(人类和人工智能),意识或感知的争论目前无法解决。
一些研究人员提出了意识的测量方法,但这些方法要么基于不可证伪的理论,要么依赖于我们自己大脑特有的相关性。
因此这些标准要么是武断的,要么无法评估,不具有我们生物遗传特征的系统中的意识。
声称非生物系统根本不可能具有智能或意识(例如,因为它们「只是算法」)似乎是武断的,植根于无法检验的精神信仰。
类似地,比如说感觉疼痛需要伤害感受器的想法,可能会让我们对熟悉的疼痛体验到底是什么进行一些有根据的猜测,但目前尚不清楚如何将这种想法应用于其他神经结构或智力类型。
「当一只蝙蝠是什么感觉?」,这是托马斯·内格尔(Thomas Nagel)在1974 年提出了一个著名的问题。
我们不知道,也不知道我们是否能够知道,蝙蝠是什么样子,或者人工智能是什么样子。但我们确实有越来越多的测试来评估智力的各种维度。
虽然寻求对意识或感知更普遍、更严格的表征可能是值得的,但任何这样的表征都不会改变任何任务的测量能力。那么,目前尚不清楚这些担忧如何能够有意义地纳入通用人工智能的定义中。
将「智能」与「意识」和「感知」分开来看会是更加理智的选择。
AGI会对人类社会造成什么样的影响?
关于智能和代理的争论很容易演变为关于权利、地位、权力和阶级关系的担忧。
自工业革命以来,被认为「死记硬背」或「重复性」的任务往往由低薪工人来完成,而编程——一开始被认为是「女性的工作」——只有当它在工业革命中成为男性主导时,其智力和经济地位才会上升。
20世纪70年代。然而讽刺的是,即使对于GOFAI来说,下棋和解决积分问题也很容易,但即使对于当今最复杂的人工智能来说,体力劳动仍然是一项重大的挑战。
1956年夏天,一群研究人员在达特茅斯召开会议,研究「如何让机器使用语言、形成抽象和概念、解决各种问题,如果AGI以某种方式「按期」实现,公众会有何反应?现在保留给人类,并提高自己」?
当时,大多数美国人对技术进步持乐观态度。在那个时代,快速发展的技术所取得的经济收益被广泛地重新分配(尽管肯定不公平,特别是在种族和性别方面)。尽管冷战的威胁迫在眉睫,但对大多数人来说,未来看起来比过去更加光明。
如今,这种再分配方式已经发生了逆转:穷人越来越穷,富人越来越富。
当人工智能被描述为「既不是人工的,也不是智能的」,而仅仅是人类智能的重新包装时,很难不从经济威胁和不安全的角度来解读这种批评。
在将关于AGI应该是什么和它是什么的争论混为一谈时,人类似乎违反了大卫·休谟的禁令,应该尽最大努力将「是」与「应该」问题分开。
但这是行不通的,因为什么是「应该」的辩论必须要诚实地进行。
AGI有望在未来几年创造巨大价值,但它也将带来重大风险。
到2023年,我们应该问的问题包括——「谁受益?」 「谁受到伤害?」 「我们如何才能最大化利益并最小化伤害?」以及「我们怎样才能公平公正地做到这一点?」
这些都是紧迫的问题,应该直接讨论,而不是否认通用人工智能的现实。
参考资料:
https://www.noemamag.com/artificial-general-intelligence-is-already-here/
相关文章
猜你喜欢