OpenAI 称为 Q* 的神秘人工智据称正在迈进了通用人工智能 (AGI)大门-脚本导航

> 自媒体 > （AI）人工智能 > OpenAI 称为 Q* 的神秘人工智据称正在迈进了通用人工智能 (AGI)大门

OpenAI 称为 Q* 的神秘人工智据称正在迈进了通用人工智能 (AGI)大门

来源：三疯讲科学

2023-12-01 21:33:38

174

管理

一份报告称，名为 Q* 的新发现引发了安全担忧，并且在首席执行官萨姆·奥尔特曼 (Sam Altman) 被解雇之前，员工已将此事告知董事会。

两位知情人士告诉路透社，生成人工智能 (AI) 巨头 OpenAI 正在研究一项先进的发现，研究人员在首席执行官萨姆·奥尔特曼 (Sam Altman)被解雇之前警告称，该发现可能会威胁人类。

OpenAI 董事会上周五解雇了 Altman，但周二又恢复了他的职位，此前该公司 750 名员工几乎全部威胁称，如果不恢复 Altman 的职位，就要辞职。

目前尚不清楚 Altman 被解雇的原因，但消息人士称，之前未报道的信件和人工智能算法是震撼这家人工智能初创公司的混乱之前的关键进展。

消息人士称，这封信是导致奥特曼被解雇的董事会一系列不满的因素之一，其中包括对在了解后果之前将先进技术商业化的担忧。

据路透社报道，其中一位知情人士称，OpenAI 在给员工的内部消息中承认了一个名为 Q* 的项目的存在，并在周末活动之前致函董事会。

这种情况的根源在于最近与人工智能制造商 OpenAI 相关的组织变动和著名的商业危机事件，包括首席执行官萨姆·奥尔特曼 (Sam Altman) 的时断时续的解雇和重新聘用，以及大量相关的遗留问题。我的重点不会特别关注相关各方的来去。相反，我试图利用这些报道的事实，主要作为与人工智能之谜相关的线索，有些人认为人工智能是组织地震的核心。

我们将从达到最顶级人工智能的目标开始。

人工智能之谜的背景

一些人认为，OpenAI 已经找到了一种新的人工智能方法，要么已经实现了真正的人工智能，即现在所说的通用人工智能 (AGI)，要么明显存在于或至少展示了通向 AGI 的道路。作为一个快速的背景知识，今天的人工智能被认为尚未达到与人类智能相提并论的境界。人工智能领域大部分的理想目标是实现充分展示人类智能的东西，这将被广泛地视为 AGI，或者可能进一步进入超级智能（对于我对这种人工智能“超人类”方面可能包含的内容的分析）的，请参阅此处的链接）。

目前还没有人能够找出并具体报告这一神秘的人工智能突破的内容（如果确实设计或发明了这样的人工智能突破的话）。这种情况可能就像是实际发生的情况与媒体上流传的谣言相去甚远。也许现实是，人工智能取得了一些小进步，但并不值得随之而来的大肆宣传。目前，谣言四起，谣言四起，认为这是真的，并且有望打开通向 AGI 的大门。

时间会证明一切。

至于人工智能本身是否已经实现了通用人工智能，让我们对这个假设表示怀疑。似乎很难想象，如果人工智能成为真正的通用人工智能，我们不会对它是什么以及它能做什么感到满意。这将是一部规模巨大的编年史。所涉及的人工智能开发人员是否有能力阻止他们奇迹般地找到尼罗河源头或点石成金的人生目标？

似乎很难相信有多少人可能知道这个奇妙的结果，并且在相当长的一段时间内保持完全保密。

看似更合理的想法是，他们开发出了一种人工智能，有望有一天实现通用人工智能。您可以将其保密一段时间。尽管这个问题迫在眉睫，但最大的问题是人工智能实际上正在走向通用人工智能的声称依据。人们希望这样的基础应该植根于实质性的铁定逻辑。另一方面，也许人们所相信的通向通用人工智能的断言只不过是技术人员的预感。

这些预感有时是偶然的。

你看，这就是那些临时预感经常出现的方式。你以为自己走在了正确的道路上，但实际上你又回到了树林里。或者你走在正确的道路上，但山顶仍然在数英里之外。仅仅说或相信你正在通向 AGI 的道路上并不一定与走在这条道路上是一样的。即使你走在AGI的道路上，也许进步只是一寸，而前方的距离还很遥远。一个人当然可以为进步一英寸而感到高兴，请不要误会我的意思。问题在于，有多少英寸被有意或无意地描述为让我们接近通用人工智能的门口。

已暗示的线索

现在您已经了解了人工智能之谜的总体背景，我们准备深入研究迄今为止关于此事报道的暗示或线索。我们将仔细探索这些线索。这需要一些精明的福尔摩斯人工智能洞察力。

在开始时有一些注意事项值得一提。

精明的侦探意识到，有些线索可能是可靠的暗示，而有些线索则是空洞的或完全误导性的。当你陷入解开谜团的战争迷雾时，你总是有可能失去足够的线索。等到谜团彻底解开、揭开之后，你才能回过头来看看，哪些线索是有针对性的，哪些线索是没有什么用处的。有趣的是，线索也可能会分散你的注意力，并把你带向无法解开谜团的方向。等等。

考虑到这些复杂情况，让我们继续努力，利用目前似乎可用的线索，尽力做到最好（毫无疑问，在接下来的几天和几周内将会泄露更多线索；我将在我的专栏文章随之展开）。

我将利用这些相对未经证实的最重要的三个线索：

a) 据说人工智能的名字是 Q*。b) 据说人工智能能够很好地解决小学水平的数学问题。c）人工智能可能利用了一种称为测试时间计算（TTC）的人工智能技术。

您可以在网上找到许多猖獗的猜测，这些猜测仅使用上述线索中的第一个，即 Q* 的名称。有些人认为仅凭这一线索就可以解开这个谜团。他们可能不知道上述另外两条线索。或者他们可能不相信其他两条线索是相关的。

我将选择使用所有三个线索，并将它们拼凑在一起，形成一种马赛克形式，这可能会提供与网上其他人所支持的关于这个谜团不同的视角。只是想让您知道，我的侦探工作可能与您在网上其他地方读到的其他叙述有所不同。

第一个线索是人工智能的所谓名称

据广泛报道，据称这家人工智能制造商选择将人工智能软件命名为大写字母 Q 后跟星号。

名称或符号是这样的：Q*。

不管你相信与否，仅凭这个声称的名字，你就可以进入一个关于人工智能是什么的深远猜测深渊。

我很乐意这样做。

我想这有点类似于著名经典电影《公民凯恩》中的“玫瑰花蕾”这个词。我不会剧透这部电影，只是强调整部电影都是在试图理解“玫瑰花蕾”这个看似无害的词。如果您有时间，我强烈建议您观看这部电影，因为它被认为是有史以来最好的电影之一。其中没有任何人工智能，所以要意识到你会因为其令人难以置信的情节、精彩的表演、令人瞠目结舌的摄影等而观看这部电影，并享受整部电影中热切追求的深层神秘。

回到我们手中的谜团。

我们可以从 Q* 名字中推断出什么？

那些稍微熟悉日常数学公式的人可能会意识到星号通常代表所谓的星号。因此，看似“Q-星号”的名字通常会被大声发音为“Q-star”而不是Q-星号。在数学符号中选择使用星号作为星号符号并没有什么特别之处。这种情况经常发生，我将很快解释为什么会出现这种情况。

总体而言，字母 Q 与星形表示的特定使用并不明显表示人工智能领域已经流行的任何东西。因此，我是说 Q* 并不是指这种特定的人工智能技术或那种特定的人工智能技术。它只是字母 Q 后跟一个星号（我们按照惯例自然地假设它代表星号）。

啊哈，我们的思维能力现在开始发挥作用了。

我们将字母 Q 与其伴随的星号分开。这样做看起来很有成效。原因如下。大写字母Q在人工智能领域确实具有重要意义。此外，使用星号作为星号在数学和计算机科学领域确实具有重要意义。通过清楚地看待每一个的重要性，我们随后可以通过考虑它们统一组合时所关联的含义来做出合理的逻辑飞跃。

我将首先解开星号的使用。

星号或星号的含义是什么

在可能类似的背景下，历史上最著名的星号用法之一是数学家 Stephen Kleene 在定义 V* 时的使用。您可能会巧妙地观察到，该表示法由大写字母 V 和后跟星号组成。它发音为V-star。

在 20 世纪 50 年代发表的论文中，他描述了假设您有一组以大写字母 V 命名的项目，然后您决定制作一个不同的集合，其中包含与该集合中的项目相关的各种组合V. 根据定义，这个新集合将包含集合 V 的所有元素，并将以我们能想到的尽可能多的串联方式进一步显示它们。由此产生的新集合将被表示为 V*（关于这个公式还有其他神秘的规则，但我只是想在这里给出一个简短的品尝）。

作为关于这个问题的一个例子，假设我有一个由字母表的前三个小写字母组成的集合：{“a”，“b”，“c”}。我将继续将该集合称为集合 V。我们有一个由 {“a”, “b”, “c”} 组成的集合 V。

然后，您可以通过对 V 中的元素进行大量组合来得出 V*。您可以根据需要重复这些元素。因此，V*将包含如下元素：{“a”, “b”, “c”, “ab”, “ac”, “ba”, “bc”, “aa”, “bb”, “cc ”、“aaa”、“aab”、“aac”、……}。

我相信你看到V*是V元素的组合。这个V*有点令人惊奇，因为它有各种巧妙的组合。我不会详细解释为什么这很有用，而只会让您注意这样一个事实：星号或星号表明无论您拥有什么集合 V，都有另一个更丰富和更完整的集合 V*。我建议那些对数学和计算机科学感兴趣的人可能想看看 Stephen Kleene 撰写的一篇值得关注的经典文章，题为“神经网络和有限自动机中事件的表示”，该文章由普林斯顿大学出版社于 1956 年出版。很容易在网上找到很多关于 V* 的解释。

这里的总体结论是，当您使用大写字母并与星号连接时，数学和计算机科学中的传统含义是您说大写字母本质上是超大的。你放大了原本的东西。在某种程度上，据说你将其最大化到了第 n 级。

到目前为止你同意我的观点吗？

但愿如此。

让我们继续并牢记星号和星号符号的内容。

在大写字母 A 的情况下使用星号或星号

你一定会喜欢接下来的侦探工作。

我已经向您介绍了星号的最新情况，并向您展示了一个涉及大写字母 V 的简单示例。在人工智能领域，有一个涉及大写字母 A 的著名实例。我们中了潜在的大奖一些人认为，关于正在解决的潜在谜团。

请允许我解释一下。

人工智能领域著名的大写字母“A”后面带有星号的例子是这样的：A*。它被发音为A-star。

顺便说一句，当我还是一名大学教授时，我在大学本科生和研究生的人工智能课程中总是教 A*。任何正在学习人工智能的计算机科学专业学生至少应该了解 A* 及其预示着什么。这是人工智能的基石。

简而言之，20 世纪 60 年代的一篇研究论文提出了一种解决数学难题的人工智能基础方法，例如试图找到从一个城市到另一个城市的最短路径。如果您从洛杉矶开车到纽约，假设您可能会经过三十个城市才能到达目的地，您会选择哪些城市来最大限度地缩短计划行程的时间或距离？

您当然会希望使用数学算法来帮助计算最佳或至少是一条真正好的路径。这也与计算机的使用有关。如果您要使用计算机来计算路径，您需要一种可以编程来执行此操作的数学算法。您希望该数学算法可以在计算机上实现并尽可能快地运行或使用尽可能少的计算资源。

制定 A* 的经典论文题为“A Formal Basis for the Heuristic Decisionation of Minimum Cost Paths”，作者是 Peter Hart、Nils Nilsson 和 Bertram Raphael，发表于IEEE Transactions on Systems Science and Cybernetics，1968。研究人员这样说：

“想象一下一组城市，有道路连接其中的某些城市。假设我们需要一种技术来发现从特定起点到指定目标城市的最短路线上的一系列城市。我们的算法规定了如何使用特殊知识——例如，任何一对城市之间的最短路线不能小于它们之间的航空距离的知识——以减少需要考虑的城市总数。”

论文继续定义了他们命名为 A* 的算法。您可以轻松地在网上找到大量有关 A* 工作原理的描述。这是一个逐步的过程或技术。除了可用于解决与旅行相关的问题之外，A* 还可用于解决各种与搜索相关的问题。例如，在下棋时，您可以将寻找下一个棋步视为与搜索相关的问题。您可以使用 A* 并将其编码为国际象棋程序的一部分。

您可能想知道 A* 是否有一个对应的可能简称为 A。换句话说，我之前提到过我们有 V*，它是 V 的变体或超大。您会很高兴知道有些人认为 A * 在某种程度上基于有时称为 A 的算法。

告诉你吧，你可能会想。

20 世纪 50 年代，著名数学家和计算机科学家 Edsger Dijkstra 提出了一种算法，该算法被认为是最早的铰接技术之一，用于计算加权图中各个节点之间的最短路径（再次类似于城市出行问题和更多的）。

有趣的是，他于 1956 年坐在阿姆斯特丹的一家咖啡馆里想出了这个算法，根据他对事情是如何发生的讲述，他只花了大约 20 分钟就想出了这个算法。该技术成为他在数学和计算机科学领域一生遗产的核心部分。他花时间把它写下来。三年后，他发表了一篇关于此问题的论文，这篇论文可读性很强，引人入胜，请参阅 EW Dijkstra，“关于与图相关的两个问题的注释”，发表于 Numericsche Mathematik，1959年。

有人认为后来设计的A*本质上是基于他作品中的A。对此有一个历史性的争论。可以相对敏感地说，A* 是一种更广泛、更稳健的算法，用于执行类似类型的搜索。我会把事情留在那里，不让自己陷入历史的纷争。

我想就星号符号在计算机领域的使用添加两条简短的评论。

首先，那些碰巧了解编码或编程或使用计算机命令的人可能会意识到星号的长期使用一直是作为通配符。这很常见。假设我想告诉你，你要识别所有可以根据词根或字母“dog”派生的单词。例如，您可能会想到“doggie”或“dogmatic”一词。我可以简洁地告诉您通过在词根末尾添加星号可以做什么，例如：“dog*”。星号再次被认为是星形符号，意味着您可以在第一个固定的三个字母“dog”之后放置任何您想要的字母。

其次，星号与大写字母一起使用时的另一个观点是，它是某事物的最后或最远可能的迭代或版本。让我们来探讨一下。假设我制作了一个软件，并决定通过大写字母 B 来引用它。我的第一个版本可能会被称为 B1。我的第二个版本可能被称为 B2。这样的事一直持续下去。我稍后可能会有 B26，第二十六个版本，很久以后可能会有 B8245，大概是八千二百四十五个版本。

引用所有版本结尾的一种朗朗上口或可爱的方式可能是说 B*。在这种情况下，星号或星号告诉我们，无论命名为“B*”，都是我们能想到的所有版本中最高或最终的。

我很快就会重新审视这些要点，并向您展示为什么它们是侦探工作的一部分。

大写字母 Q 被认为是重要线索

您现在已经知道星号或星号符号了。恭喜！

我们需要深入研究大写字母Q。

人工智能领域中最有可能提到的大写字母 Q 无疑是 Q 学习。有些人推测 Q 可能是对著名数学家理查德·贝尔曼 (Richard Bellman) 的工作及其贝尔曼方程中的最优值函数的参考。当然，我明白了。我们不知道这是否是所指的。我将做出侦探本能的选择，并转向 Q 学习中的 Q。

我正在使用显灵板来帮忙。

有时是对的，有时是错的。

Q-learning 是一项重要的人工智能技术。这又是我在人工智能课程中经常讨论的一个主题，我希望我的学生能够牢记这一主题。该技术利用强化学习。通过你可能的生活经历，你已经普遍意识到了“强化学习”。

让我们确保您对“强化学习”这个令人生畏的奇特短语感到满意。

假设你正在训练一只狗握手，或者我们应该说握手。你给狗一个口头命令，比如告诉可爱的小狗握手。狗抬起它的小爪子来触摸你伸出的手。为了奖励这种行为，你给狗吃美味的狗粮。

你继续重复这样做。每当狗狗表演出暖心的把戏时，它就会得到奖励。如果狗没有按照命令执行任务，那么您就不会提供奖励。从某种意义上说，拒绝招待几乎也是一种惩罚。你可以有更明确的惩罚，比如对狗皱眉，但通常更明智的做法是专注于奖励，而不是同时包括明确的惩罚。

总而言之，狗正在接受强化学习的训练。您通过提供奖励来强化您想要的行为。希望这只狗在其可爱的犬类大脑中以某种方式认识到握手是一件好事。狗可能正在设计的内部心理规则是，当发出握手的命令时，最好的选择是举起它方便的爪子，因为这样做会得到充分的奖励。

Q-learning 是一种人工智能技术，旨在利用计算机中的强化学习，或者据说是通过计算实现的。

该算法包括通过数学和计算方法检查当前状态或步骤，并尝试找出最适合执行的下一个状态或步骤。其中一部分包括预测未来潜在的状态或步骤。这个想法是看看与这些未来状态相关的奖励是否可以相加并提供可达到的最大奖励。

想必你在现实生活中也会做类似的事情。

考虑一下这一点。如果我选择上大学，我可能会比不上大学时找到一份薪水更高的工作。如果我没有上大学，我也许还能买一套更好的房子。有很多可能的奖励，所以我可能会将它们全部加起来，看看可能有多少。这是一个过程或一系列步骤，也许这对我有好处，或者也许有更好的东西。

如果我不上大学，我可以立即开始在我选择的领域工作。在上大学之前，我将有四年的额外工作经验。这四年的经验可能会给我带来比用这几年上大学的时间更持久的优势。我考虑与这条道路相关的后续奖励。

将这两条各自路径的奖励相加后，我可能会决定，具有最大计算奖励的路径对我来说是更好的选择。你可能会说我是把期望值加起来。为了让事情变得更强大，我可能会决定权衡奖励。例如，我提到我正在考虑我会赚多少钱。可能我也在考虑我将要做的生活方式和工作类型。我可以更加重视生活方式和工作的类型，同时减少金钱方面的重视。

表达所有这些的正式方式是，一个代理（在示例中是我）将执行一系列步骤（我们将其表示为状态），并采取将代理从一个状态转换到下一个状态的操作。代理的目标需要最大化总奖励。在采取每个状态或步骤时，都会进行重新评估，以重新计算下一步或状态似乎是最好的。

请注意，我事先并不确定要采取哪些步骤是最好的或正确的。我将对每个状态或步骤进行估计。我会一边走一边把事情弄清楚。我将使用我遇到的每一个奖励作为进一步的手段来确定下一步要采取的状态或步骤。

鉴于该描述，我希望您能够认识到，也许正在学习握手的狗正在做与此类似的事情（我们不能确定）。狗必须在每次重复的尝试中决定是否握手。它正在做出反应，但也可能预测未来奖励的潜力。我们还没有办法让狗告诉我们它在想什么，所以我们不确定那只顽皮的狗脑子里正在发生什么。

我想提供一些关于 Q-learning 的更多见解，然后我们将汇集我迄今为止涵盖的所有内容。我们需要牢记我们正在探索。这个任务涉及解开所谓的人工智能之谜，它可能会引导我们走向通用人工智能。

Q-learning 通常被描述为利用无模型和离策略的方法来进行强化学习。那是一口。我们可以把它拆开。

以下是我的一些即兴定义，诚然是松散的，但我相信它们合理地表达了与 Q 学习相关的模型和策略方面（我请求严格的形式主义者的原谅，他们可能认为这有点浇水）向下）：

基于模型：提供预先规定的方法或设计的模型，此后将用于决定下一步要采取的步骤。无模型：在经过深思熟虑的试错基础上进行（即，边走边确定下一步），这与基于模型的方法相反。符合策略：获得一组已确定的规则，指示如何选择下一步，然后在继续操作时使用这些规则。离策略：在继续进行的同时动态地找出一组自导出的规则，这与在策略方法相反，在策略方法包括预先给出一组描述的规则。

看看这些定义。我用斜体字指出了无模型和离策略。我还为您提供了相反的方法，即基于模型的方法和基于策略的方法，因为这些方法分别是潜在不同的做事方式。Q-learning 走的是无模型和离策略路线。

其重要性在于，Q-learning 在试错的基础上进行（被认为是无模型的），并在前进的同时尝试设计规则（被认为是脱离策略的）。这对我们来说是一个巨大的优势。您可以使用 Q-learning，而不必提前提出它应该如何做事情的预先规定的模型。同样，您不必事先制定一堆规则。整个算法本质上是随着活动的进行而即时完成工作并自动导出规则。相关值得注意的是，Q 学习方法利用了称为 Q 表和 Q 值的数据表和数据值（即，大写字母 Q 在 Q 学习中得到大量使用）。

好的，我很感激您费力地完成了这个也许是迟钝或复杂的主题。

接下来就是你的回报。

根据 Q 和星号揭开 Q* 的神秘面纱

现在您已经大致了解了星号与大写字母一起使用时的含义。此外，我倾向于假设大写字母 Q 指的是 Q-learning。

让我们将 Q 和星号放在一起，看看会发生什么，即：Q*。

这个组合可能意味着这个。潜在的人工智能突破被标记为 Q，因为它与 Q 学习技术有关，也许星号或星号给我们提供了一个线索，即 Q 学习在某种程度上已经发展到一个明显更好的版本或变体。星号可能表明这是任何人见过或想象过的最高或最遥远的 Q 学习能力。

哇，多么令人兴奋的可能性啊。

这意味着使用强化学习作为基于人工智能的方法，并且是无模型和非策略的，可以跳过高楼，比超速火车更快（比喻地），从而能够将人工智能推向通用人工智能。如果您将其置于生成式 AI 的背景下，例如 OpenAI 的 ChatGPT 和 OpenAI 的 GPT-4，那么如果这些生成式 AI 应用程序包含此 Q*（或这可能会包含在据传正在开发的 GPT-5 中）。

如果只有 OpenAI 在 Q* 方面取得了突破（如果有这样的事情的话），并且如果 Q* 确实提供了巨大的优势，那么这可能会让 OpenAI 在竞争中拥有巨大的优势。这让我们想到了一个有趣且持续存在的人工智能伦理问题。对于我对人工智能伦理和人工智能法律的持续和广泛的报道，请参阅此处的链接和此处的链接，仅举几例。

有些人会认为，一家公司“囤积”或拥有人工智能突破，让我们更接近或真正实现通用人工智能，这是错误的。公司应该与其他人分享。整个世界可能会相应地变得更好。也许这能让我们通过 AGI 来治愈癌症，请参阅此处链接中我的分析。硬币的另一面是，也许接近 AGI 是一种危险，我们都面临着死亡或毁灭的生存风险，请参阅我在链接中的讨论。在这种情况下，拥有一家掌握世界命运关键的公司似乎会让人伤脑筋。

花点时间思考一下这些尖锐的问题：

是否应该要求人工智能公司披露其人工智能突破？如果他们这样做，是否会无意中让作恶者利用这些人工智能突破来达到邪恶的目的？对于一家花费资源设计人工智能突破但无法从中获利而必须将其交给广大公众的公司来说公平吗？谁应该拥有并控制让我们进入通用人工智能领域的人工智能突破？我们是否需要新的或额外的人工智能相关法律来规范和管理人工智能正在发生的事情？ETC。

我在数百篇有关人工智能伦理和人工智能法律的专栏文章中解决了这些问题以及许多其他此类问题，请参阅此处的链接。这些都是严肃而发人深省的问题。社会需要弄清楚我们想做什么。一个疑虑是，如果不及时解决这些问题，也许马会跑出谷仓，而我们将无法为结果做好准备。

无论如何，在此，我将继续追寻这个谜团，而你们则对那些令人畏惧的担忧进行令人兴奋的思考。

关于 Q* 的另一种理论

我想提出另一种关于 Q* 含义的理论。

请记住，我之前提到过有一个 A*。我还提到，Q-learning 可能是组合 Q* 中的大写 Q。

Q* 中的星号可能是对 A* 的切线引用。因此，我们相信 Q* 实际上是 Q-learning 和 A* 的混搭。您采用涉及路径搜索和图遍历的 A* 算法，并将其与 Q-learning 强化学习算法混合搭配。

这是一个合理的可能性。我们不能从表面上否定情况可能是这样。也许是这样，也许不是。

对我来说，只是想让你们知道，我不会选择把赌注押在这条路上。我现在仍保留这样的观点：大写字母 Q 上的星号更多地是一个一般指示。这意味着 Q-learning 已经取得了根本性的进步。无论这一进步是否基于与 A* 的混合，好吧，也许吧，但我倾向于相信 A* 的包含并不是让事情变得如此壮观的原因（如果这是一次合并，我可能会有点懊恼） A* 与 Q 学习，但这很好，我会赞赏地为这对配对干杯）。

有人认为您还可以思考，如果这确实是 Q-learning 和 A* 的混搭，也许它被命名为 QA* 或 QA* 更合适。反驳是，科技领域的人们喜欢保持只使用一个大写字母的传统，因此不适合包含大写字母 A。按照惯例，这种逻辑是这样的，你可以从 A* 借用星号，将其插入大写 Q。期间，故事结束。

我们一圈又一圈地走。

让我们考虑一下我在开始时提到的另外两条线索。到目前为止，我们只关注了 Q* 名字的一条线索。我已经告诉过你，这将是一个漫长的拆箱过程，而且它会像臭名昭著的“玫瑰花蕾”一样引起共鸣。我想你现在可以清楚地看到情况就是如此。

解决小学水平的数学问题

我们准备考虑另外两条线索。

我将从报道的线索开始，即所谓的人工智能突破有助于解决小学水平的数学问题。您很快就会发现，这将我们直接带入生成人工智能领域和大型语言模型 (LLM) 的本质。

我之前曾在我的专栏文章中介绍过当今的生成式人工智能在解决小学生可以轻松回答的最简单的数学问题时通常缺乏的看似令人恼火的方面，请在此处的链接中查看我的深入解释。人们非常惊讶地发现生成式人工智能并不是特别能够解决直接的数学问题。最重要的假设是，既然生成式人工智能可以写出关于各种主题的流畅论文，并且可以回答广泛的历史、哲学和日常主题的棘手问题，那么这些青少年式的数学问题当然应该很容易解决。

并非如此。

为了让您了解我所指的内容，请考虑一下您过去常常苦恼地解决的那些类型的数学问题，这些问题涉及计算两架飞机何时会交叉。您被告知一架飞机正从迈阿密出发，以 550 英里/小时的速度飞往旧金山，飞行高度为 40,000 英尺。第二架从旧金山飞往迈阿密的飞机比第一架飞机晚一小时起飞。第二架飞机将以 600 英里/小时的速度飞行，高度为 32,000 英尺。假设两架飞机飞行相同的航线，那么需要多长时间飞机才会交叉彼此的路径？

我相信你在小学时就已经学会了各种可以用来计算和回答这些棘手的应用题的方法。这些问题一开始很难弄清楚，但逐渐你会学到获得正确答案所需的规则或步骤。通过逐步重复解决此类问题，该过程几乎变得例行公事。我敢说，你可能已经忘记了如何解决这类数学难题，并且可能会发现自己今天在一场正面交锋中被五年级学生击败。

这就是为什么这些是生成人工智能难以解决的难题。

生成式人工智能本质上是基于大型语言模型。法学硕士是通过扫描互联网和相关来源的大量在线文本而设计的。在扫描过程中，LLM 的算法会对遇到的文本进行数学和计算模式匹配。模式匹配侧重于自然语言（例如英语）的使用方式。人类通过文本表达事物，法学硕士是我们如何表达事物的模型。它被认为是大型语言模型，因为它使用非常大的数据结构来封装模式，通常是人工神经网络 (ANN)，并且需要扫描大量文本或数据来完成此操作。

假设在初始扫描过程中，有一个关于一架飞机在一个方向飞行而另一架飞机在另一个方向飞行的应用题。假设一架飞机从纽约飞往洛杉矶，第二架飞机从洛杉矶飞往纽约。该问题还说明了他们的速度以及每个人从出发机场出发的时间。为了便于讨论，假设答案是他们需要四个小时才能穿过路径。

以下是法学硕士和所涉及的生成人工智能可能发生的情况（示例性简化）。

大型语言模型可能根据所使用的单词来模拟问题的本质。有些词表明有两个平面。有些文字表明两架飞机正在朝对方飞去。等等。纽约和洛杉矶的数学问题很像旧金山和迈阿密的数学问题，仅从措辞上看就很相似。

因此，如果你向生成人工智能输入有关旧金山和迈阿密的数学问题，可以想象，计算模式匹配将找到在初始数据训练期间遇到的纽约和洛杉矶问题的本质。这两个问题的措辞看起来非常相似。而且，由于纽约和洛杉矶问题的答案是四个小时，因此模式匹配可能只是向您发出或生成一个答案，即旧金山和迈阿密数学问题的答案也是四个小时。

没有调用直接计算或公式。

你可能会认为这是生成人工智能的“猴见猴做”的答案（不过，要意识到猴子是有感知能力的，而今天的人工智能则没有）。这两道数学题的相似之处在措辞上有很大的重叠。只是措辞。根据如此高的措辞比例及其逐字对应，答案是四个小时。遗憾的是，这并不是旧金山到迈阿密问题的正确答案。

让我们来讨论一下吧。

任何热衷于使用生成式人工智能的人都可能听说过或遇到过所谓的人工智能幻觉。我不喜欢提到“幻觉”的术语，因为这样的措辞将人工智能过度拟人化，请参阅我在链接中的讨论。无论如何，每当生成式人工智能凭空捏造事情时，人们就会认为这是人工智能幻觉的一个例子。

如果您在生成式人工智能应用程序中输入从旧金山到迈阿密的数学问题并得到指示四个小时的答案，您可能也会这么想。当你亲手仔细检查答案后，你发现四个小时的答案是错误的。这四个小时肯定看起来是一个虚假的答案，你会对人工智能如何错误地得出答案感到困惑。我们假设你不知道生成式人工智能的初始数据训练包括纽约和洛杉矶的问题。您所看到的只是您在四个小时内得到了提示的答案。

要点是，生成式人工智能并没有做年轻人或青少年被教导要做的事情。在学校里，老师提供了一套规则和流程供学生用来解决这些数学问题。学生不只是阅读数学问题的文字。他们必须提取基本参数，利用公式并计算答案。

总的来说，这并不是生成式人工智能和大型语言模型的设计目的。这些是面向单词的模式匹配。一些人将生成式人工智能描述为对人类措辞的模仿。其他人则指出，生成式人工智能只不过是一只随机鹦鹉（尽管，我们再次认识到鹦鹉是有感知能力的，而今天的人工智能却没有感知能力）。

你同意我的观点吗？

我真诚地希望如此。

人工智能研究人员和人工智能开发人员正在夜以继日地工作，寻找一种方法来解决生成人工智能中缺乏数学推理的问题。到目前为止，最简单的方法是使用经过编程来处理数学问题的外部应用程序。当您输入要解决的数学问题时，生成式人工智能会解析单词，并将数据发送到外部程序，外部程序根据编码规则和编程过程计算结果，然后将结果返回给生成式人工智能。然后，生成式人工智能会生成一篇漂亮的短文，其中包括外部得出的答案。

相反，我们的愿望是让生成式人工智能及其大型语言模型能够解决这些数学问题，而无需使用任何其他应用程序。解决数学问题的整个工具包和工具包将以某种方式融入生成式人工智能中。人们尝试了各种技巧和技术来扭转生成人工智能现有的弱点或限制，请参阅我在此处链接的报道。

深吸一口气。

请记住，我们正在讨论 Q* 之谜背后的一条线索。线索是，也许 Q* 已经能够破解代码，并且可以解决年级水平的数学问题。假设这是通过某种强化的 Q 学习来完成的。我们有可能将 Q* 嵌入或注入生成式人工智能或大型语言模型中。瞧，我们现在有了一个方便的内置年级数学问题解决器。

但还有更多。

如果这个 Q* 足够泛化，那么它大概可以解决涉及推理类型过程的所有类型的问题。我之前曾指出，Q-learning 使用无模型和离策略的方法。从这个意义上说，Q* 很有可能很容易应用于无数类型的推理任务。测试首先是针对小学数学问题进行的，因为这是生成人工智能的一个已知问题，并且已经得到了很多媒体报道。不妨先解决这些问题，然后再看看还能做什么。

请允许我为你画一幅画。

假设您是一家开发生成式人工智能应用程序的公司的首席执行官。假设你非常清楚解决年级数学问题一直是生成式人工智能的痛点。人们感到震惊和失望，一个年轻人轻易解决的问题似乎难倒了最新、最伟大的人工智能。你们把你们热切而昔日的人工智能研究人员和人工智能开发人员投入到这个问题中。他们正在加紧努力寻找解决办法。

想象一下，他们尝试了一切，包括把厨房水槽扔到它身上。似乎没有什么能改变现状。然后，经过各种尝试，其中一项涉及使用 Q-learning 并以一些巧妙的方式对其进行调整的努力开始显示出良好的效果。他们使用新的软件进行了更多测试，它显示出巨大的前景。年级数学问题被反复输入到这个新应用程序中，结果始终如一且令人难以置信。

看到这个演示后你会说什么？

人们可能会认为你可能会因为一个棘手的难题似乎已经解决而感到高兴。另外，您立即就会想到这可能会带来什么影响。当您意识到这可能是人工智能的一项重要突破时，您的心跳加速。其后果是惊人的。

我不想把事情混为一谈，所以我只想指出媒体报道的一些内容。

此前有报道称，OpenAI 首席执行官 Sam Altman 在谈到实现 AGI 的话题时曾表示：“我认为我们已经足够接近了。但我认为重要的是我们要认识到这些是工具，而不是我们正在建造的生物。” 根据最近的报道，萨姆·奥尔特曼据说是这么说的：“这是我们建造的工具还是我们创造的生物？”

这是否与 Q* 有关或有其他相关性尚不清楚。此外，可能需要考虑此类言论的背景及其性质，例如可能以热情或开玩笑的方式发表。

让我们来看第三条线索。

测试时计算已成熟

再喝一口酒，以便为下一条线索做好准备。

第三条线索在关于神秘 Q* 的古怪关注中很少被提及，但它已经出现了，所以我认为它值得包含在我们的侦探工作中。不可否认的是，这个话题在我的人工智能新兴趋势话题列表中已经有一段时间了，但我还没有抽出时间来讨论。我想我现在通过覆盖一块石头偶然地获得了两只鸟（旁注：在这个分析过程中没有鸟受到伤害）。

我想向您简要介绍人工智能的一个领域，通常称为测试时间计算（TTC），也称为测试时间适应（TTA）。我只会稍微略读并简化一下 TTC 和 TTA 的内容。我将引用各种人工智能学术研究论文，如果这是您可能感兴趣的人工智能领域的主题，我建议您考虑阅读这些论文，谢谢。

这里是瘦子。

当人工神经网络首次接受数据训练时，例如我之前关于在大型语言模型中进行训练以及用于生成人工智能目的的讨论，一个重要的考虑因素是扫描数据的模式匹配程度。一个问题是模式匹配过于关注所提供的数据。在统计领域，如果您曾经上过回归课程，您就会知道这是对输入数据的潜在过度拟合。

我已经提到过，我们希望尝试让生成式人工智能能够泛化。这样做将使生成人工智能能够解决在进行初始数据训练时不一定直接遇到的问题。当前的问题涉及您可能会喜欢的一个有趣的术语，即我们希望生成式人工智能能够处理分布外（OOD）数据。

分布外数据通常是指在生成式人工智能可能正在使用并已投入实际生产期间遇到一些新数据。一个人输入的问题或主题从未在初始数据训练中特别包含过。然后会发生什么？生成人工智能可能无法做出响应，因此通常会通过编码来告诉你它在此事上没有任何值得注意的内容。在其他情况下，正如我之前指出的，生成式人工智能可能会产生人工智能幻觉，并炮制出一些奇怪的答案。

您可能会坚持认为最初的数据训练应该更广泛，以确保涵盖任何可以想象的可能性。这是一个美好的梦想，但并不是一个真正令人满意的解决方案。不管怎样，在初始数据训练完成后，很可能会出现一些新的东西，或者模式匹配可能会在一开始就完成一项令人厌烦的狭窄工作。

考虑到这一点，我们可以尝试处理更下游的事情。

当生成式人工智能被测试时，也许我们可以帮助底层结构实现更全面的泛化。一旦生成式人工智能被推广到整个版本中，同样的情况也可以发生。现在，我将重点关注测试时的情况。

题为“路径独立均衡模型可以更好地利用测试时计算”的研究论文，作者为 Cem Anil、Ashwini Pokle、Kaiqu Liang、Johannes Treutlein、Yuhuai Wu、Shaojie Bai、Zico Kolter、Roger Grosse，并于 11 月发布在网上2022 年 12 月 18 日，测试时计算在应对 OOD 方面的作用以及实现泛化的愿望是这样表述的（摘录）：

“限制现代深度学习系统实际适用性的主要挑战之一是在训练分布之外进行泛化的能力。分布外 (OOD) 泛化的一种特别重要的类型是向上泛化，或者泛化到比训练时遇到的问题实例更困难的问题实例的能力。通常，在更困难的实例上获得良好的性能需要大量的测试时计算，因此自然会出现一个问题：我们如何设计能够可靠地利用额外的测试时计算来实现更高准确性的神经网络架构？”

提倡的目标是探索我们是否可以通过在测试时这样做，让底层的人工神经网络朝着能够解决比初始训练时遇到的问题更难的问题的方向进行推广。简而言之，如果我们可以为模型提供更多的测试时间计算，我们是否有可能以经过深思熟虑的向上解决问题的方式提高泛化能力？

回想一下关于两个平面的数学问题。我已经提到过，在初始数据训练期间看到第一个问题后，生成式人工智能可能还没有足够的泛化能力来解决第二个问题。让我们让事情变得更有挑战性。假设我们有一个数学问题，涉及从多个地点飞行的 20 架飞机，并且必须弄清楚它们何时相互交叉。你可以断言这是一个更难的问题。假设在训练时没有出现这样的问题，那么让人工智能解决这个问题，我们可能会陷入困境。

您可以使用测试时间计算并进行系统的测试时间调整来改进底层人工神经网络。在赵浩、刘月江、亚历山大·阿拉希和林涛于 2023 年 6 月 6 日在线发布的题为“论测试时适应的陷阱”的研究论文中，他们描述了利用测试时适应的优势（摘录）：

“解决分布变化下的鲁棒性问题是机器学习中最紧迫的挑战之一。在现有方法中，测试时间适应（TTA）——其中神经网络模型通过在测试时使用未标记的示例来适应新的分布——已成为一种越来越受欢迎的有前途的范例。”“与其他方法相比，TTA 具有两个关键优势：(i) 通用性：TTA 不依赖于有关分布变化结构的强烈假设，而域泛化 (DG) 方法通常就是这种情况；(ii) 灵活性：TTA 不需要训练和测试数据共存，而这是域适应 (DA) 方法的先决条件。”

关于这个主题的实证研究通常伴随着尝试所提出的方法，这些方法可能会显示出有希望的结果。有时，测试时的调整可能侧重于改变模型的参数，包括使用不确定性概率和优化技术。例如，詹润哲、刘学波、Derek F. Wong、张翠莲、Lidia S. Chao、张敏发表在《 Proceedings of the Proceedings of the Proceedings of the Proceedings》上的题为“Test-time Adaptation for Machine Translation Assessment by Uncertainty Minimization”的研究论文2023年7月9-14日，第61届计算语言学协会年会，他们提出了以下观点（摘录）：

“我们提出的方法包括三个步骤：不确定性估计、测试时间适应和推理。具体来说，该模型利用当前数据的预测不确定性作为信号，在测试期间更新一小部分参数，然后通过优化来完善预测。”“从域内和分布外评估中获得的结果一致证明了不同模型之间的相关性能有所改善。此外，我们提供的证据表明所提出的方法有效地降低了模型的不确定性。”

我不希望这个讨论陷入困境并变得非常冗长，所以我将以总结性评论来结束第三条线索。

可以想象，Q* 可能指的是经过广泛改编的 Q 学习的使用，包括使用了某种形式的测试时间计算或测试时间调整。如果我们想象 Q* 已经能够达到算法问题解决的更高水平的通用性，那么 TTC 或 TTA 可能会为假定的人工智能突破做出贡献。

不知道情况是否如此，但它是为什么测试时计算可能是第三条线索的绝佳搭配。

这就是硬核侦探工作。

结论

夏洛克·福尔摩斯即将下班并探索其他谜语和神秘谜题。这里使用的三个线索无疑是充满活力的发人深省。从某种意义上说，我们把烛台、管家和餐厅作为我们的线索。

也许它们相加，也许不相加。

我认为可能同样相关的一个方面是，如果任何猜想和猜测都是实质性的，那么对此事的另一种看法是，也许我们开始看到基于数据的人工智能方法与基于规则的人工智能方法的混合。人工智能的方法。我之前曾指出，我相信我们将需要进入神经符号人工智能时代，以将人工智能能力推向新的水平，请参阅此处链接中我的讨论。

简而言之，我们曾经认为规则是设计人工智能的一种手段。这类似于专家系统、基于规则的系统和基于知识的系统。你会让人们透露他们用来执行任务的规则。这些规则将被输入或编入人工智能应用程序中。有时这效果很好。有时，这种方法过于脆弱并且设计起来过于耗时。

人工智能的寒冬随之而来。

如今，使用基于数据的方法（例如人工神经网络）是现代人工智能的英雄和支柱。据说我们正处于人工智能的春天。一些人断言，如果我们不断增加规模和规模，现有的方法就能实现通用人工智能。其他人对此表示怀疑。他们倾向于认为我们需要找到其他方法，也许与基于数据的方法相结合。

每当他们这么说时，基于数据的皈依者就会谴责，如果允许规则重新回到游戏中，事情就会倒退到旧的和被鄙视的方式。这场战斗在人工智能领域已经持续了很长时间。有一些以规则为中心的支持者，被称为符号学，因为他们认为我们需要对人工智能进行符号编码。基于数据的支持者通常被称为子符号，因为他们处于数据的底层，并且据说不太热衷于符号级别作为一种方法。

神经象征的支持者认为，我们可以将象征和次象征结合起来，从而获得两全其美的效果。你可能会有些令人信服地劝告说，如果你使用 Q-learning 并以我上面描述的方式将其结合起来，包括无缝地融入 LLM 和 GenAI，那么该组合似乎在某种程度上将子符号和符号混合在一起。

这是通向 AGI 的必要途径，或者至少是一条可行的途径吗？

没有人能肯定地说。

现在有一些最后的评论。

主流新闻报道称，在最近于旧金山举行的亚太经济合作组织（APEC）会议上，Sam Altman 据称表示：“OpenAI 历史上已经出现过四次，最近一次是在过去几周，当我们推开无知的面纱、推进发现的前沿时，我就在场，而能够做到这一点是我一生的职业荣誉。”

他在那个房间里看到了什么？

究竟是什么如此富有诗意地、引人注目地揭开了无知的面纱，并在前沿发现的前沿发出了明亮的光芒？

而且，上述侦探的繁琐工作是否提供了有关可能展出的内容的任何前瞻性发现？

夏洛克·福尔摩斯有句名言：“我多少次对你说过，当你排除了不可能的事情后，剩下的无论多么不可能，都一定是真相？”

作为现在的最后一句话，夏洛克还说了这样一句话：“比赛正在进行中。”

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

OpenAI“地震”始末：理想主义的烈焰与现实的海洋

5个月前

从“驱逐流亡”、再到“王者归来”，一文回顾OpenAI“派系之争”始末

5个月前