OpenAI Five 亲测报告：技术强悍但有天大弱点！-脚本导航

> 自媒体 > （AI）人工智能 > OpenAI Five 亲测报告：技术强悍但有天大弱点！

OpenAI Five 亲测报告：技术强悍但有天大弱点！

来源：DeepTech深科技

2023-08-02 17:54:55

902

管理

在 4 月 14 日，OpenAI Five 代表人工智能拿下了与人类的竞争史上又一个里程碑：以 2 比 0 的绝对优势击败了 Dota 2 TI8 冠军 OG 战队。其中甚至以碾压之势拿下第二盘，仅用 22 分钟就“打卡下班”。比赛 4 天后，OpenAI 宣布将开放为期 3 天的 Arena 竞技场模式，邀请所有 Dota 2 玩家挑战OpenAI Five。

这场“人机大战”的竞技场于北京时间 4 月 22 日正式落幕。AI 在 Dota 2 竞技场上获得的最终成绩为 7215 : 42，胜率高达 99.4%，足以看出 OG 的败北并不是偶然事件。

图 | 竞技场排行榜前十（来源：OpenAI Arena）

排行榜显示，在人类获胜的 42 场比赛中，有一些来自于天梯大神队伍，还有一些知名 Dota 2 主播的队伍，比如 Twitch 平台的 Waga，也有中国玩家熟悉的 OB 五人组和 Zard/天使焦/Fade/战术大师 Rubick 等人。

在这些队伍中，有一支队长是“ainodehna”的队伍一枝独秀，取得了对抗 AI 的十连胜。相比之下，排名第二的队伍仅有三连胜。

Steam 和 DotaBuff 的资料显示，队伍成员应该来自于俄罗斯或独联体地区，其中的 ainodehna 和 junior 单排天梯分都在 7000 以上，获得了冠绝一世奖章，欧服排名分别是 294 和 227。而且他们还有电竞选手资料，很可能曾经加入过职业或准职业队伍。

图 | 人类强拆兵营，AI 却只顾中路打架

换言之，在已经大规模减少复杂度的游戏中，AI 仍然难以透过复杂的表面看到本质，比如 AI 自己控制的英雄在不断掉血，周围却没有看到敌方英雄（表面），为什么会这样（本质）？下一步该怎么办？

打个比方，OpenAI Five 就像一个严重偏科的学生，有的科目能得 120 分，有的却只能得 20 分。获得连胜的队伍正是扬长避短，利用明显的“木桶效应”不断制裁 AI，颇有几分田忌赛马的感觉。

OpenAI 自己也认为，大规模的竞技场测试会回答一个重要的研究问题：OpenAI Five 在多大程度上可以被人类找到漏洞，进而被反复击败。

向“通用人工智能技术”进军

我们可以将这一问题扩大到整个深度学习领域，甚至是通用人工智能技术（AGI）。

简单来说，AGI 就是和人类智能水平相似的 AI 系统，能够进行感知、推理、学习、决策、行动和交流等任务，不必局限于某个应用领域，可以创造灵活的通用解决方案，能在很多领域替代人类。

按照 OpenAI 的愿景，今天陪人类玩游戏的 AI 系统，明天很可能拓展到自动化和机器人领域，有望成为AGI 的雏形。

OpenAI 本指望通过竞技场为 AI 积累通用经验，但如今可能会面临一个数据较少的严峻考验：人类只赢了 42 场，这对于动辄分析数万场训练数据的 AI 来说，实在是九牛一毛，它真的可以从中学到什么吗？

（来源：Pixabay）

目前已有类似的努力，比如“仅需”数千个数据就能生效的生成模型（Generative Models）、数据需求进一步降低至数百的迁移学习（Transfer Learning），可以从零开始的单样本学习（one-shot learning）和自我对战 (Self-Play)，这都是近几年的新兴概念。

生成模型的基础思想为“训练算法来生成自己的训练数据”，通过生成一个能够抽取出基类数据的模型，根据少量的训练数据，凭空“想”出大量的训练数据。对于图像来说，迄今最成功的生成模型是生成对抗网络（GAN）。正如生成对抗网络的发明人 Ian Goodfellow 所说的，生成模型给机器带来了“想象力”。

但是，有些应用场景连训练生成模型的数据都凑不够。因此，由人类儿童学习方式启发的迁移学习诞生了。

迁移学习是深度学习领域为了解决其海量数据需求而开发的一种手段。其基础在于先用一个有着大量训练数据的场景训练模型。完成训练后，该模型的特征将适用于所有跟这个应用场景相关或类似的具体场景。

换句话说，这个模型“学会”的特征可以被“迁移”到另外一个应用场景。比如用具有 1400 万张照片的 ImageNet 去训练一个图像识别模型（通用特征），然后再训练这个模型去具体地识别医疗成像中的肿瘤（具体应用）。

但迁移学习的基础也限制了它的应用场景：如果一个任务的所有相关任务都缺少数据（比如打 Dota 2），就无法训练迁移学习所需的“通用模型”（生成模型因此也不适用）。这也是将深度学习扩散到新的（少数据）应用领域时所面临的最大挑战。

在计算机视觉任务领域，为了减少对训练数据的依赖，研究人员正在努力研发单样本学习。单样本，指的是借助元学习（Meta Learning）技术的支持，只用展示一张图片或者一段演示，就可以让 AI 认识某个物品，学会某种技能，从而具备一种“触类旁通”的能力。

而在其他从零开始的应用场景中，AI 可以根据规则在自我对战中进行学习，这也正是 OpenAI Five 和 DeepMind 的 AlphaGo Zero 所使用的技术。自我对战最大的优势在于可以“从零开始”，在大量的对战中进行优化，用大量的计算力和训练时间来掌握一个技能。

无论哪种方法，我们都能看出类似的趋势：减少数据需求。但是，从 OpenAI Five 竞技场的表现来看，虽然现有的技术手段能够有效地减少对数据的依赖，却依然无法有效地提高模型训练的速度。

所幸，提升学习速度也是当下机器学习领域的一个大热门。可以预见的是，从 AI 到 AGI，将是一个漫长的发展历程，而只借助少量数据就能迅速学习新技能的能力，将是发展过程中的最大难题之一。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

AI出现无法解释的推理能力！科学家：暂停！

2023-08-02 17:55

谷歌、微软、英伟达、OpenAI 和 Anthropic 等七家顶尖 AI 公司承诺将负责任地开发人工智能

2023-08-02 17:52