竞技宝不出所料,他们选择了一套相当蛇皮的阵

一天前,OpenAI Five在一场Bo3的比赛中击败了由Dota水平前99.95%选手Blitz、Cap、Fogged、Merlini和MoonMeander组成的队伍——其中有四位选手曾经打过职业。比赛向现场观众进行了直播,并在网上吸引了10万人次的观看。在观众为OpenAI选择了一套蛇皮阵容之后,人类队伍赢下了第三局。我们还演示了OpenAI Five对游戏看法的预备性工作,包括对胜率的预测(Five的预测大大出乎人类观察者的预料)。这些结果表明,Five距离成为能够处理现实世界复杂性和不确定性的高级AI系统更进了一步。
比赛日回顾
与观众的较量
比赛当天的开场赛是由OpenAI Five对阵观众自愿者组成的队伍。
 
Five只用了不到14分钟就结束了比赛,而一场势均力敌的较量通常要花上45分钟。
 
 
对阵人类队伍的前两局
 
我们展示了一项OpenAI的新功能——即BP的功能。BP被认为是Dota里最具挑战性的一部分内容,因为英雄相互之间有着非常复杂的联系。
 
图示:OpenAI在选择每个英雄之后对胜率的预测
在六月下旬我们为神经网络添加了一个胜率预测功能,以内省OpenAI的预测过程。到后来考虑BP时,我们意识到可以同这个功能来评估每一次选人前后的胜率:大家可以看上图中OPEAI对阵容选择完毕之后的预测。在实施这项功能一周的时间里,我们伪制了1100万可能的对阵情况并编写了一条搜索树来找寻OpenAI Five的最佳选人方案。
 
在第一局的阵容选择完毕之后,OpenAI Five预测获胜概率为95%,而人类OB则认为双方的阵容相当均衡。OpenAI用时21分37秒赢下了第一局。第二局比赛OpenAIFive预测的胜率为76.2%,并用时24分53秒赢下第二局。
第三局:观众BP
第三局比赛我们要求观众OpenAI Five选择英雄。不出所料,他们选择了一套相当蛇皮的阵容。
 
OpenAI Five这一局的阵容相当搞笑。两个大肉核斯温和斧王、两个隐身/Gank系英雄斯拉克和力丸、还有自带逃生Blink和输出的痛苦女王。
在第三局开始前,OpenAI Five预计获胜概率仅为2.9%。尽管形势不利,它们还是一度将预计胜率提升到17%。不过最终它们还是输掉了比赛,游戏耗时35分47秒。
 
训练
通常我们的发展循环是从头开始对系统的每一个修正方案进行训练。然而这个版本的OpenAI Five包含了自6月9日开始就开始训练的六个系统修正方案的参数。每一个修正方案都使用前一个方案的参数进行初始化。
我们非常倚重“手术”工具来把旧参数匹配到新的网络架构中。比如我们一开始在训练放置守卫的时候,我们为决定移动位置和决定放置守卫的行动使用了同一个头指令(action head)。不过Five似乎经常在其想要前进的方向上放置守卫,我们的推测是它会把资源主要分配到移动上来。有了相应的工具我们可以使用同一参数进行初始化并将头指令一分为二。
我们估计为训练以下Dota系统所用到的计算量分别为:
1v1模型:8千万亿次/秒-日
6月6日模型:40千万亿次/秒-日
8月5日模型:190千万亿次/秒-日
 
模型一瞥
通过一个可以预测英雄未来位置的输出界面我们可以深入了解模型的计划。下面的视频中,高亮的区域预测了斯温在接下来6秒内可能出现的位置。
 
我们还可以训练输出界面来预测其他数值型变量——补刀、防御塔数量,显示如下:
 
为了让模型正常运转还需要解决许多Bug以及出乎意料的举动,比如:
 
下一步计划
比赛结果给了我们继续该项目下一步计划的信心:在本月的TI上对战一支职业队伍。在确认对阵双方后我们会公布比赛的具体信息——请关注我们的推特,及时获取更新!