几十年来,速通玩家都在他们最喜欢的游戏中压缩每一帧。现在,人工智能驱动的机器人正在打破那些来之不易的人类记录,并且在许多情况下,发现了突破关卡的最佳方法。
几十年来,速通玩家都在他们最喜欢的游戏中压缩每一帧。现在,人工智能驱动的机器人正在打破那些来之不易的人类记录,并且在许多情况下,发现了突破关卡的最佳方法。
速跑的演变
速通始终与优化和发现有关。顶尖跑步者花费数年时间寻找故障并完善路线。许多人还依赖外部工具。例如,工具辅助加速游戏 (TAS) 使用模拟器、保存状态和逐帧输入来构建理论上完美的游戏。
由于没有人现场按下这些按钮,因此完成的跑步通常被视为研究或娱乐工具,而不是与人类记录直接竞争。
如今的人工智能机器人将事情推向更进一步。机器学习代理不再需要一个人编写每一个动作的脚本,而是通过反复试验进行训练,进行数千次尝试而不会感到疲劳。他们学习其创造者从未阐明的策略。
换句话说,这个过程已经从人类完美编程转变为机器人自己发现它。下面,我深入研究了一些例子,其中人工智能代理的成绩已经超过了人类最好的跑步成绩。
1.QWOP
2021 年,研究员 Wesley Liao 开始研究人工智能是否能够击败 QWOP,这是一款出了名的困难田径游戏。当时,人类顶尖选手只能在不到 49 秒的时间内完成 100 米短跑。
他通过强化学习来训练神经网络代理来完成这项任务,本质上是奖励人工智能取得的进步和跑得更快,同时惩罚它的绊脚石。
通过反复训练,它逐渐学会了更加直立、像人类一样的步态。当廖修改奖励函数以纯粹关注速度时,突破出现了。经过大约 40 个小时的总训练(包括一些针对人类数据的预训练),人工智能开始实现先进的技术,一种顶级跑步者使用的向上腿部摆动以获得额外动力。
结果,它在约 47.34 秒内跑完 100m,超越了人类最好成绩约 48.34 秒。换句话说,该机器人在 QWOP 中创造了新的世界纪录,这证实了学习算法不仅可以匹配甚至超越人类在速通场景中的表现。
2. 超级马里奥兄弟
最快的 SMB 玩家在不到 4 分 55 秒的时间内完成了游戏(World 8-4 warp run),考虑到游戏的历史和所需的帧完美精度,这是令人兴奋的。
2023 年末,一名编码员开始训练人工智能,以创纪录的速度快速运行 SMB。该项目涉及使用一种名为“近端策略优化”(PPO)的强化学习算法来教马里奥如何有效地缩放关卡。
训练在处理游戏逻辑的 OpenAI Gym 环境中开始。奖励功能促使马里奥快速向右移动,践踏敌人,并在没有浪费帧的情况下到达旗帜。
通过钻关键阶段(1-2 经纱,然后 8-2 和 8-4 完成),机器人缩小了差距。因此,最后的跑动与现有的世界纪录时间相匹配,对于一款拥有数十年速通历史的游戏来说,这是一个超现实的时刻。
3. 我的世界
速通并不局限于复古 2D 游戏。现代开放世界游戏也有速通社区。在《我的世界》中,目标通常是击败末影龙并完成游戏。人类在这方面做得很快。如果有故障和运气的话,熟练的玩家可以在天气好的时候在 20 分钟内完成,或者在随机种子无故障类别中大约一个小时完成。
然而,《我的世界》是一款需要人工智能来掌握的复杂游戏。它是开放式的、3D 的,并且很大程度上基于随机生成和长期规划。但这并没有阻止勇敢的开发者尝试构建一个能够比人类更快地击败《我的世界》的人工智能。
2023 年,一位 YouTube 用户 MCBYT 记录了一项实验,其中一名 AI 特工(绰号 Alto Clef)在完成《我的世界》的竞赛中与人类正面交锋。
Alto Clef 建立在 Baritone 寻路框架的基础上,将任务逻辑置于顶层:收集资源、制作装备、建造下界传送门、与猪灵交易、到达末路之地,以及对龙进行床铺炸弹。在一场正面交锋中,它用时 2 小时 6 分,以秒数的优势击败了人类选手的 2 小时 7 分。
我如何看待人工智能机器人在竞速游戏中胜过人类
从 TAS 脚本到自学习代理的跳跃暗示着未来“完美”不再是一个固定目标,而是开始远离人类的能力。因此,我认为三个重大转变将永远推动目标。
最值得注意的是,下一步是运行中的适应。例如,一个机器人在玩游戏时监控 RNG 模式并动态重写其路径,重置更少的种子并每次都直接滑向最快的结果。
很快,进化搜索将连续梳理输入空间,在补丁或粉丝模组后出现的物理怪癖立即标记出来。一名跑步者醒来,机器人通过电子邮件发送了一个新的墙夹,该夹子直接跳转到制作人员名单。因此,发现循环将从几个月的测试崩溃到一个晚上的服务器时间。
最后,在整个控制台库上训练的基础模型可以在加载特定游戏之前学习广义物理。一个全新的独立版本发布,几个小时内人工智能代理就会绘制动量怪异图,计算理论时间,并发布运行情况。
我喜欢速通,因为 GDQ 直播中展现出的创造力和勇气,但我无法摆脱人工智能将这项爱好推向岔路的感觉。人工智能代理和人工智能伴侣开始渗透到每个可以想象的行业。他们已经开始与我们业务的各个部分互动,现在又涉及我们生活中更私密、休闲的部分。我不是在谈论与AI玩脏话类型,虽然这也越来越成为一种事情,但这种休闲,但仍然是游戏的竞争方面,他们将自己置于我们真正享受与真正的游戏玩家之间的竞争的玩家之间。要么我们围绕什么算作人类运行收紧规则集,要么我们拥抱并行联盟,在其中代码为了纯粹的优化荣耀而竞争代码。
两条路都令我兴奋。
两者都削弱了世界纪录仅属于凡人反应的安慰。
两者都将速通变成了代码与勇气之间持续的对话,每一个新算法都会重新绘制地图,每一个勇敢的玩家都试图证明在机器发现的路线上仍然有人类天赋的空间。
