原Meta技术大牛跳槽OpenAI，称将研发比GPT-4好1000倍的大模型-脚本导航

> 自媒体 > （AI）人工智能 > 原Meta技术大牛跳槽OpenAI，称将研发比GPT-4好1000倍的大模型

原Meta技术大牛跳槽OpenAI，称将研发比GPT-4好1000倍的大模型

来源：DeepTech深科技

2023-07-13 15:51:04

453

管理

近日，原 FAIR（Facebook AI 研究院）研究员诺姆·布朗（Noam Brown）发推特称：“我很高兴与大家分享一件事：我加入了 OpenAI。多年来，我一直在研究扑克（Poker）和外交（Diplomacy）等游戏中的 AI 自对弈和推理。现在我将研究如何使这些方法真正变得通用。如果成功，我们可能有一天会看到比 GPT-4 好 1000 倍的大型语言模型。”

图 | 诺姆·布朗（Noam Brown）（来源：《麻省理工科技评论》）

加入 OpenAI 之后，他将担任研究科学家一职。多年来，他一直致力于研究多步骤推理、自对弈和多智能体人工智能。2019 年，在他 31 岁的那一年，他还入选了《麻省理工技术评论》“35 岁以下科技创新 35 人”全球榜单。

据介绍，布朗博士毕业于美国卡内基梅隆大学计算机科学专业。在读博之前，他曾在美联储的国际金融市场部门工作，主要研究金融市场中的算法交易。

在读博期间，他参与研发了能在无限制扑克游戏中击败顶尖人类的 AI 程序：Libratus 和 Pluribus。这两款 AI 程序均在人机比赛中击败了顶尖的人类扑克职业玩家。

Libratus 的相关论文于 2017 年发在 Science，论文题为《超机人工智能炫技无限制扑克：Libratus 击败顶级专业选手》（Superhuman AI for heads-up no-limit poker: Libratus beats top professionals），布朗和卡内基梅隆大学教授图马斯·桑德霍尔姆（Tuomas Sandholm）担任共同作者 [1]。后来，Libratus 还获得了马文·明斯基人工智能杰出成就奖。

图 | Libratus 的相关论文（来源：Science）

Pluribus 的相关论文则于 2019 年登上 Science 的封面，论文题为《多人扑克的超人人工智能》（Superhuman AI for multiplayer poker），依然由布朗和桑德霍尔姆教授担任共同作者 [2]。该成果还入选 2019 年“科学年度突破奖”的候选名单。

图 | Pluribus 的相关论文（来源：Science）

研发的 Libratus 和 Pluribus 出发点在于：近年来，AI 取得了长足进步，游戏则经常成为 AI 挑战某些问题、基准和进步的里程碑。几十年来，扑克一直是个具有挑战性的问题。尽管 AI 在包括扑克在内的基准测试中取得了成功，但也仅限于双人游戏。

而 Libratus 正是为此而生，它是一个能被用于玩扑克的 AI 程序。德扑等扑克游戏大多有两名以上的玩家。

布朗表示自己从来都不擅长玩扑克，但是他所创建的 Libratus 程序却成为第一个在无限制德州扑克中击败世界顶级玩家的程序。

2017 年 1 月，Libratus 在美国匹兹堡的一家赌场 20 天内击败了四名世界顶级玩家。AI 程序并不是通过模仿人类来学习德扑游戏，因此它能使用人类玩家通常不会使用的战术。Libratus 所使用的一些策略，比如大幅提高小底池的前注，目前已经成为开始改变职业选手玩德扑的方式。

Libratus 的本质是将三个 AI 系统合为一体：第一个系统负责开发扑克策略，在几个月的训练中，它和自己对弈了数万亿手；第二个系统在与人类的比赛中，负责实时完善前者的策略；第三个系统则负责在每天比赛结束后审查所有行动，以找到对手会被可能利用的弱点，比如可预测的投注模式等。

Pluribus，则是布朗参与研发的一款扑克游戏算法，它能够击败世界顶级的人类玩家，并证明机器也可以掌握人类的心理。在六人无限制的德扑游戏中，Pluribus 比顶尖的人类玩家更强。

2019 年，在 12 天的时间里，Pluribus 在两种不同的设定中与 12 名专业选手进行了对决。第一种设定是人工智能与五名人类玩家打牌，而另一种设定是五个版本的 Pluribus 与一名人类玩家打牌（在这种设定下，AI 无法进行协作）。最终，Pluribus 平均每手赢得 5 美元，每小时的奖金约为 1000 美元。

连续六届获得世界扑克系列赛冠军的克里斯·弗格森（Chris Ferguson）被选为对抗人工智能的职业选手之一，他当时在一份新闻声明中表示：“Pluribus 是一个很难对付的对手，很难击败它。”对于 Pluribus 的胜利，布朗在论文中表示，这场胜利是人工智能研究的一个重要里程碑。

在 FAIR 工作、也就是在前东家公司工作时，他和同事开发了 CICERO，这是第一款在战略游戏《外交》中可以达到人类水平的 AI 程序。

相关论文于 2022 年发表在 Science 上，论文题为《通过结合语言模型和战略推理，在外交游戏中进行人类层面的游戏》（Human-level play in the game of Diplomacy by combining language models with strategic reasoning），布朗是四位通讯作者的其中一位。目前，该论文的下载量已经高达九万多次。

图 | CICERO 的相关论文（来源：Science）

研发 CICERO 的原因在于，尽管人们在训练 AI 系统模仿人类语言方面取得了很大进展，但是构建使用自然语言的、并能在互动环境中有意义地与人类交流的智能体，仍然是一个重大挑战。

图 | CICERO 的架构图（来源：Science）

CICERO 则能将语言模型与计划和强化学习算法相结合，通过从对话中推断玩家的想法和意图，并在推进自己的计划的过程中生成对话。

在一场匿名游戏中，CICERO 在 40 场比赛中的平均得分是人类玩家的两倍多，在玩过一场以上比赛的参与者中排名位于前 10%。

名校背景、三篇 Science 论文加持、并在 Meta 工作过，而且有过金融领域的从业经验。布朗的履历已经相当不错，而从他的个人首页可知，除了研究人工智能和机器学习之外，分布式计算技术和算法博弈论也是他的研究方向。后两项专长毫无疑问可以给OpenAI 这一新东家锦上添花。至于他能否研发出“比 GPT-4 好 1000 倍的大型语言模型”，相信不远的将来就能见分晓。

参考资料：

1.Brown, N., & Sandholm, T. (2018). Superhuman AI for heads-up no-limit poker: Libratus beats top professionals.Science, 359(6374), 418-424.

2.Brown, N., & Sandholm, T. (2019). Superhuman AI for multiplayer poker.Science, 365(6456), 885-890.

3.Meta Fundamental AI Research Diplomacy Team (FAIR)†, Bakhtin, A., Brown, N., Dinan, E., Farina, G., Flaherty, C., ... & Zijlstra, M. (2022). Human-level play in the game of Diplomacy by combining language models with strategic reasoning.Science, 378(6624), 1067-1074.

https://noambrown.github.io/downloads/diplomacy_science_all.pdf

https://en.wikipedia.org/wiki/Libratus

https://twitter.com/polynoamial/status/1676971503261454340

https://www.nytimes.com/2019/07/11/science/poker-robot-ai-artificial-intelligence.html

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

GPT—4跨过通用人工智能门槛了吗？

2023-07-13 15:53

OpenAI 宣布向付费用户开放 GPT-4 API

2023-07-13 15:46