通灵量子比特| 公众号由QbitAI整理整理。今天,《星际争霸2》(后来称为星际争霸2)深度强化学习(DRL)代理Reaver开源了,它引起了许多Reddit用户的关注。
塔尔图大学的Roman Ring 表示,该模块化框架将主要用于训练《星际争霸2》中的各种任务,并将在单机环境中提供比大多数开源解决方案更快的并行化能力。 Reaver 适应多种环境,除了星际争霸2 的SC2LE 之外,还支持其他强化学习任务中常用的Gym、Atari 和Mujoco。使用简单的Keras 模型定义神经网络、配置和共享配置也非常有用。最重要的是,Reaver 的训练量表非常易于使用。在典型的4核CPU笔记本电脑上,采样率可以达到每秒5K,你可以在10秒内学会立杆游戏CartPole-0。
使用配备Intel i5-7300HQ CPU(4 核)和GTX 1050 GPU 的笔记本电脑,Reaver 在30 分钟内击败了《星际争霸2》的MoveToBeacon 游戏,成绩与DeepMind 相当。
功能介绍Reaver 有六大主要功能: 可扩展的Reaver 适合初学者和老手。对于业余编程爱好者,Reaver 提供了在进行更改后训练代理所需的工具,例如超参数。退伍。。可以直接利用Reaver 的模块化架构和性能优化的代码库,代理、模型和环境全部隔离,可以自由混合和匹配,并且具有高度可扩展性。 Performance Reaver 使用无锁数据结构共享内存将《星际争霸2》的采样率提高2 倍(通常快100 倍)。瓶颈是GPU I/O 管道。 Configurable Reaver 的所有配置都可以通过gin-config 配置框架进行处理,允许所有超参数、环境参数和模型定义以.gin 格式文件轻松共享。作者使用两种经典的DRL 算法来实现代理:优势Actor-Critic 算法(A2C) 邻近策略优化(PPO) 支持多种环境。
PySC2(使用所有迷你游戏进行测试) OpenAI Gym(使用CartPole-v0 进行测试) Atari(使用PongNoFrameskip-v0 进行测试) Mujoco(使用InvertedPendulum-v2 和HalfCheetah-v2 进行测试) 其他强化学习功能
GAE算法支持奖励裁剪、梯度标准裁剪,并使用正则化方法基线引导独立基线网络。结果显示了Reaver 在现实世界中的具体性能?研究人员在各种地图上对A2C 架构Reaver、DeepMind 的SC2LE 和ReDRL 进行了基准测试,并提供了人类大师级专家在这些任务上的结果。
其中,所有DeepMind结果均来自于之前发表论文的最佳结果。 Reaver(A2C)是通过训练reaver.agents.A2C代理得到的。这个结果是通过运行训练测试模块100次并计算总奖励值得到的。图中括号内的值。。平均值和标准差,方括号内的值。。最小值和最大值。
门户Reddit 讨论主题:https://www.reddit.com/r/MachineLearning/comments/a0jm84/p_reaver_starcraft_ii_deep_reinforcement_learning/访问GitHub 以获取具体安装说明:https://github.com/inoryy/reaver-pysc2 此外,如果您的计算机: 如果配置类似于Google Colab,则您也可以在线使用Reaver。地址:https://colab.research.google.com/drive/1DvyCUdymqgjk85FB5DrTtAwTFbI494x7
- 就这样-
诚信招聘
量子比特现招聘一名编辑/记者,驻地北京中关村。我们正在寻找有才华和热情的学生加入我们!详情请在量子位公众号(QbitAI)对话界面回复“招聘”。
量子位QbitAI·今日头条署名作者
追踪AI技术和产品新进展
标题:星际2智能施法怎么设置,星际2 1v1
链接:https://www.313yx.com//news/xydt/148722.html
版权:文章转载自网络,如有侵权,请联系删除!