近日,原 FAIR(Facebook AI 研究院)研究员诺姆·布朗(Noam Brown)发推特称:“我很高兴与大家分享一件事:我加入了 OpenAI。多年来,我一直在研究扑克(Poker)和外交(Diplomacy)等游戏中的 AI 自对弈和推理。现在我将研究如何使这些方法真正变得通用。如果成功,我们可能有一天会看到比 GPT-4 好 1000 倍的大型语言模型。”
图 | 诺姆·布朗(Noam Brown)(来源:《麻省理工科技评论》)
加入 OpenAI 之后,他将担任研究科学家一职。多年来,他一直致力于研究多步骤推理、自对弈和多智能体人工智能。2019 年,在他 31 岁的那一年,他还入选了《麻省理工技术评论》“35 岁以下科技创新 35 人”全球榜单。
据介绍,布朗博士毕业于美国卡内基梅隆大学计算机科学专业。在读博之前,他曾在美联储的国际金融市场部门工作,主要研究金融市场中的算法交易。
在读博期间,他参与研发了能在无限制扑克游戏中击败顶尖人类的 AI 程序:Libratus 和 Pluribus。这两款 AI 程序均在人机比赛中击败了顶尖的人类扑克职业玩家。
Libratus 的相关论文于 2017 年发在 Science,论文题为《超机人工智能炫技无限制扑克:Libratus 击败顶级专业选手》(Superhuman AI for heads-up no-limit poker: Libratus beats top professionals),布朗和卡内基梅隆大学教授图马斯·桑德霍尔姆(Tuomas Sandholm)担任共同作者 [1]。后来,Libratus 还获得了马文·明斯基人工智能杰出成就奖。
图 | Libratus 的相关论文(来源:Science)
Pluribus 的相关论文则于 2019 年登上 Science 的封面,论文题为《多人扑克的超人人工智能》(Superhuman AI for multiplayer poker),依然由布朗和桑德霍尔姆教授担任共同作者 [2]。该成果还入选 2019 年“科学年度突破奖”的候选名单。
图 | Pluribus 的相关论文(来源:Science)
研发的 Libratus 和 Pluribus 出发点在于:近年来,AI 取得了长足进步,游戏则经常成为 AI 挑战某些问题、基准和进步的里程碑。几十年来,扑克一直是个具有挑战性的问题。尽管 AI 在包括扑克在内的基准测试中取得了成功,但也仅限于双人游戏。
而 Libratus 正是为此而生,它是一个能被用于玩扑克的 AI 程序。德扑等扑克游戏大多有两名以上的玩家。
布朗表示自己从来都不擅长玩扑克,但是他所创建的 Libratus 程序却成为第一个在无限制德州扑克中击败世界顶级玩家的程序。
2017 年 1 月,Libratus 在美国匹兹堡的一家赌场 20 天内击败了四名世界顶级玩家。AI 程序并不是通过模仿人类来学习德扑游戏,因此它能使用人类玩家通常不会使用的战术。Libratus 所使用的一些策略,比如大幅提高小底池的前注,目前已经成为开始改变职业选手玩德扑的方式。
Libratus 的本质是将三个 AI 系统合为一体:第一个系统负责开发扑克策略,在几个月的训练中,它和自己对弈了数万亿手;第二个系统在与人类的比赛中,负责实时完善前者的策略;第三个系统则负责在每天比赛结束后审查所有行动,以找到对手会被可能利用的弱点,比如可预测的投注模式等。
Pluribus,则是布朗参与研发的一款扑克游戏算法,它能够击败世界顶级的人类玩家,并证明机器也可以掌握人类的心理。在六人无限制的德扑游戏中,Pluribus 比顶尖的人类玩家更强。
2019 年,在 12 天的时间里,Pluribus 在两种不同的设定中与 12 名专业选手进行了对决。第一种设定是人工智能与五名人类玩家打牌,而另一种设定是五个版本的 Pluribus 与一名人类玩家打牌(在这种设定下,AI 无法进行协作)。最终,Pluribus 平均每手赢得 5 美元,每小时的奖金约为 1000 美元。
连续六届获得世界扑克系列赛冠军的克里斯·弗格森(Chris Ferguson)被选为对抗人工智能的职业选手之一,他当时在一份新闻声明中表示:“Pluribus 是一个很难对付的对手,很难击败它。”对于 Pluribus 的胜利,布朗在论文中表示,这场胜利是人工智能研究的一个重要里程碑。
在 FAIR 工作、也就是在前东家公司工作时,他和同事开发了 CICERO,这是第一款在战略游戏《外交》中可以达到人类水平的 AI 程序。
相关论文于 2022 年发表在 Science 上,论文题为《通过结合语言模型和战略推理,在外交游戏中进行人类层面的游戏》(Human-level play in the game of Diplomacy by combining language models with strategic reasoning),布朗是四位通讯作者的其中一位。目前,该论文的下载量已经高达九万多次。
图 | CICERO 的相关论文(来源:Science)
研发 CICERO 的原因在于,尽管人们在训练 AI 系统模仿人类语言方面取得了很大进展,但是构建使用自然语言的、并能在互动环境中有意义地与人类交流的智能体,仍然是一个重大挑战。
图 | CICERO 的架构图(来源:Science)
CICERO 则能将语言模型与计划和强化学习算法相结合,通过从对话中推断玩家的想法和意图,并在推进自己的计划的过程中生成对话。
在一场匿名游戏中,CICERO 在 40 场比赛中的平均得分是人类玩家的两倍多,在玩过一场以上比赛的参与者中排名位于前 10%。
名校背景、三篇 Science 论文加持、并在 Meta 工作过,而且有过金融领域的从业经验。布朗的履历已经相当不错,而从他的个人首页可知,除了研究人工智能和机器学习之外,分布式计算技术和算法博弈论也是他的研究方向。后两项专长毫无疑问可以给OpenAI 这一新东家锦上添花。至于他能否研发出“比 GPT-4 好 1000 倍的大型语言模型”,相信不远的将来就能见分晓。
参考资料:
1.Brown, N., & Sandholm, T. (2018). Superhuman AI for heads-up no-limit poker: Libratus beats top professionals.Science, 359(6374), 418-424.
2.Brown, N., & Sandholm, T. (2019). Superhuman AI for multiplayer poker.Science, 365(6456), 885-890.
3.Meta Fundamental AI Research Diplomacy Team (FAIR)†, Bakhtin, A., Brown, N., Dinan, E., Farina, G., Flaherty, C., ... & Zijlstra, M. (2022). Human-level play in the game of Diplomacy by combining language models with strategic reasoning.Science, 378(6624), 1067-1074.
https://noambrown.github.io/downloads/diplomacy_science_all.pdf
https://en.wikipedia.org/wiki/Libratus
https://twitter.com/polynoamial/status/1676971503261454340
https://www.nytimes.com/2019/07/11/science/poker-robot-ai-artificial-intelligence.html
相关文章
猜你喜欢