Gymnasium# Gymnasium 简介 Gymnasium 环境 安装 Gymnasium Gymnasium API 值得关注的 Gymnasium 相关库 Gymnasium 基础 初始化 Gymnasium 环境 gym 与环境交互 动作和观测空间 修改环境 训练智能体 执行动作 构建智能体 训练智能体 创建自定义环境 环境 __init__ 构建观测值 reset 函数 Step 函数 注册和创建环境 使用包装器 记录智能体行为 记录每个剧集 在训练期间记录智能体行为 加速训练 向量化环境 优化训练 算法启发式方法 与 Gym 的兼容性 加载 OpenAI Gym 环境 Gym v0.21环境兼容性 Step API 兼容性 迁移指南 - 从 v0.21 到 v1.0.0 种子和随机数生成器 环境重置 环境步进 时间限制包装器 环境渲染 已移除的代码 Gym 教程 处理时间限制 终止 截断 在代码学习中的重要性 解决方案 实现自定义包装器 继承自 gymnasium.ObservationWrapper 继承自 gymnasium.ActionWrapper 继承自 gymnasium.RewardWrapper 继承自 gymnasium.Wrapper 创建自定义环境 设置 推荐解决方案 替代解决方案 生成你的环境 继承 gymnasium.Env 声明和初始化 从环境状态构建观测器 重置 步骤 渲染 关闭 注册环境 创建软件包 创建环境实例 使用包装器 使用 Vector Env 和 Domain Randomization 训练 A2C 引言 Advantage Actor-Critic (A2C) Using Vectorized Environments Domain Randomization Setup Training the A2C Agent Plotting Performance Analysis of Synchronous and Asynchronous Vectorized Environments Saving/ Loading Weights Showcase the Agent Try playing the environment yourself References 训练智能体 Training using REINFORCE for Mujoco Policy Network Building an agent Plot learning curve References Frozenlake benchmark Dependencies Parameters we’ll use The FrozenLake environment Creating the Q-table Running the environment Visualization Map size: \(4 \times 4\) Map size: \(7 \times 7\) Map size: \(9 \times 9\) Map size: \(11 \times 11\) References