听说你的多智能体强化学习算法不work？

发布时间：2021-04-01 09:56:11 所属栏目：评论来源：互联网

导读：玩家；OpenAI Five 在 DOTA2 中多次击败世界冠军队伍，是首个在电子竞技比赛中击败冠军的人工智能系统；以及在仿真物理环境 hide-and-seek 中训练出像人一样可以使用工具的智能体。我们提到的这些智能体大多是采用 on-policy 算法（例如 IMPALA[8]）训练得到

玩家；OpenAI Five 在 DOTA2 中多次击败世界冠军队伍，是首个在电子竞技比赛中击败冠军的人工智能系统；以及在仿真物理环境 hide-and-seek 中训练出像人一样可以使用工具的智能体。我们提到的这些智能体大多是采用 on-policy 算法（例如 IMPALA[8]）训练得到的，这就意味着需要很高的并行度和庞大的算力支持，例如 OpenAI Five 消耗了 12.8 万块 CPU 和 256 块 P100 GPU 来收集数据样本和训练网络。

然而，大多数的学术机构很难配备这个量级的计算资源。因此，MARL 领域几乎已经达成共识：与 on-policy 算法（例如 PPO[3]）相比，在计算资源有限的情况下，off-policy 算法（例如 MADDPG[5]，QMix[6]）因其更高的采样效率更适合用来训练智能体，并且也演化出一系列解决某些具体问题（domain-specific）的 SOTA 算法（例如 SAD[9]，RODE[7]）。

但是，来自清华大学与 UC 伯克利的研究者在一篇论文中针对这一传统认知提出了不同的观点：MARL 算法需要综合考虑数据样本效率（sample efficiency）和算法运行效率（wall-clock runtime efficiency）。在有限计算资源的条件下，与 off-policy 算法相比，on-policy 算法 --MAPPO（Multi-Agent PPO）具有显著高的算法运行效率和与之相当（甚至更高）的数据样本效率。有趣的是，研究者发现只需要对 MAPPO 进行极小的超参搜索，在不进行任何算法或者网络架构变动的情况下就可以取得与 SOTA 算法相当的性能。更进一步地，还贴心地给出了 5 条可以提升 MAPPO 性能的重要建议，并且开源了一套优化后的 MARL 算法源码（代码地址：

所以，如果你的 MARL 算法一直不 work，不妨参考一下这项研究，有可能是你没有用对算法；如果你专注于研究 MARL 算法，不妨尝试将 MAPPO 作为 baseline，说不定可以提高任务基准；如果你处于 MARL 研究入门阶段，这套源码值得拥有，据说开发完备，简单易上手。这篇论文由清华大学的汪玉、吴翼等人与 UC 伯克利的研究者合作完成。研究者后续会持续开源更多优化后的算法及任务（仓库指路：

（编辑：应用网_丽江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!