# 创建 Multigrid 新环境

自定义环境。

In [1]:
import sys
from pathlib import Path
from IPython import display

root_dir = Path(".").resolve()
sys.path.extend([str(root_dir.parents[2]/"tests/gym-multigrid")])
temp_dir = root_dir/"images"

## 第一步：Multigrid 创建新世界

- `core/agent.py`: 如果现有的动作类不满足需求，添加新世界的动作类。
- `core/constants.py`: 
    - 如果有对象特定的状态，定义 `state_to_idx_{yourChosenName}` 字典。
    - 如果你的环境需要尚未定义的对象，将新对象的条目添加到 `OBJECT_TO_STR` 字典中。
- `core/object.py`
    - 为新对象（如果有）定义类。
    - 对象需要：类型、颜色、位置、编码、解码、渲染。
    - 对象属性通过以下方式定义：can_overlap（可重叠）、can_pickup（可拾取）、can_contain（可容纳）、see_behind（可见背面）。
    - 对象可以具有：contains（包含）、toggle（切换）。
- `core/world.py`
    - 如果现有世界不满足需求，添加一个新世界。
    - 一个世界定义了对象、颜色和编码大小。
    - 注意：编码层用于捕获不同的事物。第1层用于单元格中的对象类型，第2层用于颜色，第3层用于代理方向。我们还没有使用4、5和6层，但如果需要，它们可以用于更多特性。
- `core/grid.py`
    - 这是新环境的基础结构。
    - 方法包括：copy（复制）、get（获取）、set（设置）、rotate（旋转）、slice（切片）、render（渲染）、encode（编码）。
    - 还有：horz_wall（水平墙）、vert_wall（垂直墙）、wall_rect（矩形墙）。

## 第二步：Multigrid 创建环境

在 `gym_multigrid/gym_multigrid/envs/` 目录下创建名为 `{yourChosenName}.py` 的文件。编写继承自 `MultigridEnv` 的环境类。

- 在调用父类的 `__init__` 方法时，您应该指定以下参数：
    - 代理列表
    - 网格尺寸
    - 是否使用完全或部分可观测性
    - 每个时间步长的数量
    - 上面定义的动作和世界类

In [2]:
from gym_multigrid.multigrid import MultiGridEnv

In [3]:
MultiGridEnv?

[0;31mInit signature:[0m
[0mMultiGridEnv[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0magents[0m[0;34m:[0m [0mlist[0m[0;34m[[0m[0;34m~[0m[0mAgentT[0m[0;34m][0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mgrid_size[0m[0;34m:[0m [0mint[0m [0;34m|[0m [0;32mNone[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mwidth[0m[0;34m:[0m [0mint[0m [0;34m|[0m [0;32mNone[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mheight[0m[0;34m:[0m [0mint[0m [0;34m|[0m [0;32mNone[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mmax_steps[0m[0;34m:[0m [0mint[0m [0;34m=[0m [0;36m100[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msee_through_walls[0m[0;34m:[0m [0mbool[0m [0;34m=[0m [0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mpartial_obs[0m[0;34m:[0m [0mbool[0m [0;34m=[0m [0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0magent_view_size[0m[0;34m:[0m [0

你可能需要初始化/定义与你的环境相关的其他私有变量。例如，在收集游戏中，我们需要跟踪以下内容：

In [4]:
from gym_multigrid.envs.collect_game import CollectGameEnv

In [6]:
CollectGameEnv.__init__?

[0;31mSignature:[0m
[0mCollectGameEnv[0m[0;34m.[0m[0m__init__[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mself[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0;34m*[0m[0margs[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mactions_set[0m[0;34m=[0m[0;34m<[0m[0menum[0m [0;34m'CollectActions'[0m[0;34m>[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0;34m**[0m[0mkwargs[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Initialize the CollectGameEnv.

Parameters
----------
size : int
    Size of grid if square. Default 10
num_balls : list[int]
    Total number of balls present in environment.
agents_index : list[int]
    Colour index for each agent.
balls_index : list[int]
    Colour index for each ball type.
balls_reward : list[float]
    Reward given for collecting each ball type.
respawn : bool
    Whether or not balls respawn after being collected.
[0;31mFile:[0m      /media/pc/data/lxw/ai/d2py/tests/gym-multigrid/gym_mult

### {meth}`~gym_multigrid.multigrid.MultiGridEnv._gen_grid`
你必须实现这个方法，因为它没有在MultiGridEnv父类中定义。这个方法在env.reset()期间默认被调用。在这里，你需要放置所有存在于网格世界中的对象和代理。

例如，在收集游戏中，我们定义了四个边界墙，放置球体，然后放置代理。

In [8]:
CollectGameEnv._gen_grid??

[0;31mSignature:[0m [0mCollectGameEnv[0m[0;34m.[0m[0m_gen_grid[0m[0;34m([0m[0mself[0m[0;34m,[0m [0mwidth[0m[0;34m:[0m [0mint[0m[0;34m,[0m [0mheight[0m[0;34m:[0m [0mint[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mSource:[0m   
    [0;32mdef[0m [0m_gen_grid[0m[0;34m([0m[0mself[0m[0;34m,[0m [0mwidth[0m[0;34m:[0m [0mint[0m[0;34m,[0m [0mheight[0m[0;34m:[0m [0mint[0m[0;34m)[0m[0;34m:[0m[0;34m[0m
[0;34m[0m        [0;34m"""[0m
[0;34m        Generate grid and place all the balls and agents.[0m
[0;34m[0m
[0;34m        Parameters[0m
[0;34m        ----------[0m
[0;34m        width : int[0m
[0;34m            width of grid[0m
[0;34m        height : int[0m
[0;34m            height of grid[0m
[0;34m        """[0m[0;34m[0m
[0;34m[0m        [0mself[0m[0;34m.[0m[0mgrid[0m [0;34m=[0m [0mGrid[0m[0;34m([0m[0mwidth[0m[0;34m,[0m [0mheight[0m[0;34m,[0m [0mself[0m[0;34m.[0m[0mworld[0m[0;34m)[0m[

{meth}`~gym_multigrid.multigrid.MultiGridEnv.place_obj` 方法由父类定义，具有以下参数：

In [9]:
MultiGridEnv.place_obj??

[0;31mSignature:[0m
[0mMultiGridEnv[0m[0;34m.[0m[0mplace_obj[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mself[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mobj[0m[0;34m:[0m [0;34m~[0m[0mWorldObjT[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mtop[0m[0;34m:[0m [0mtuple[0m[0;34m[[0m[0mint[0m[0;34m,[0m [0mint[0m[0;34m][0m [0;34m|[0m [0mnumpy[0m[0;34m.[0m[0mndarray[0m[0;34m[[0m[0mtyping[0m[0;34m.[0m[0mAny[0m[0;34m,[0m [0mnumpy[0m[0;34m.[0m[0mdtype[0m[0;34m[[0m[0mnumpy[0m[0;34m.[0m[0mint64[0m[0;34m][0m[0;34m][0m [0;34m|[0m [0;32mNone[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msize[0m[0;34m:[0m [0mtuple[0m[0;34m[[0m[0mint[0m[0;34m,[0m [0mint[0m[0;34m][0m [0;34m|[0m [0;32mNone[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mreject_fn[0m[0;34m:[0m [0mOptional[0m[0;34m[[0m[0mCallable[0m[0;34m[[0m[0;34m[[0m[0mForwardRef[0m[0;34m([0m[0;

默认情况下，该方法通过反复随机均匀地采样位置来尝试将对象放置在网格中，直到找到一个空闲的网格单元格。

如果你知道对象的坐标，你应该改用这个方法：

In [10]:
MultiGridEnv.put_obj??

[0;31mSignature:[0m [0mMultiGridEnv[0m[0;34m.[0m[0mput_obj[0m[0;34m([0m[0mself[0m[0;34m,[0m [0mobj[0m[0;34m:[0m [0;34m~[0m[0mWorldObjT[0m[0;34m,[0m [0mi[0m[0;34m:[0m [0mint[0m[0;34m,[0m [0mj[0m[0;34m:[0m [0mint[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mSource:[0m   
    [0;32mdef[0m [0mput_obj[0m[0;34m([0m[0mself[0m[0;34m,[0m [0mobj[0m[0;34m:[0m [0mWorldObjT[0m[0;34m,[0m [0mi[0m[0;34m:[0m [0mint[0m[0;34m,[0m [0mj[0m[0;34m:[0m [0mint[0m[0;34m)[0m[0;34m:[0m[0;34m[0m
[0;34m[0m        [0;34m"""[0m
[0;34m        Put an object at a specific position in the grid[0m
[0;34m        """[0m[0;34m[0m
[0;34m[0m[0;34m[0m
[0;34m[0m        [0mself[0m[0;34m.[0m[0mgrid[0m[0;34m.[0m[0mset[0m[0;34m([0m[0mi[0m[0;34m,[0m [0mj[0m[0;34m,[0m [0mobj[0m[0;34m)[0m[0;34m[0m
[0;34m[0m        [0mobj[0m[0;34m.[0m[0minit_pos[0m [0;34m=[0m [0;34m([0m[0mi[0m[0;34m,[0m [0mj[0m[0;3

对于放置代理，根据需要使用上述两种方法调用此方法：

In [11]:
MultiGridEnv.place_agent??

[0;31mSignature:[0m
[0mMultiGridEnv[0m[0;34m.[0m[0mplace_agent[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mself[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0magent[0m[0;34m:[0m [0;34m~[0m[0mAgentT[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mpos[0m[0;34m:[0m [0mtuple[0m[0;34m[[0m[0mint[0m[0;34m,[0m [0mint[0m[0;34m][0m [0;34m|[0m [0mnumpy[0m[0;34m.[0m[0mndarray[0m[0;34m[[0m[0mtyping[0m[0;34m.[0m[0mAny[0m[0;34m,[0m [0mnumpy[0m[0;34m.[0m[0mdtype[0m[0;34m[[0m[0mnumpy[0m[0;34m.[0m[0mint64[0m[0;34m][0m[0;34m][0m [0;34m|[0m [0;32mNone[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mtop[0m[0;34m:[0m [0mtuple[0m[0;34m[[0m[0mint[0m[0;34m,[0m [0mint[0m[0;34m][0m [0;34m|[0m [0mnumpy[0m[0;34m.[0m[0mndarray[0m[0;34m[[0m[0mtyping[0m[0;34m.[0m[0mAny[0m[0;34m,[0m [0mnumpy[0m[0;34m.[0m[0mdtype[0m[0;34m[[0m[0mnumpy[0m[0;34m.[0m[0mint64[0m[0;34m][0m[0;34m][0m 

### {meth}`~gym_multigrid.multigrid.MultiGridEnv._reward`

In [12]:
MultiGridEnv._reward??

[0;31mSignature:[0m [0mMultiGridEnv[0m[0;34m.[0m[0m_reward[0m[0;34m([0m[0mself[0m[0;34m,[0m [0mcurrent_agent[0m[0;34m,[0m [0mrewards[0m[0;34m,[0m [0mreward[0m[0;34m=[0m[0;36m1[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mSource:[0m   
    [0;32mdef[0m [0m_reward[0m[0;34m([0m[0mself[0m[0;34m,[0m [0mcurrent_agent[0m[0;34m,[0m [0mrewards[0m[0;34m,[0m [0mreward[0m[0;34m=[0m[0;36m1[0m[0;34m)[0m[0;34m:[0m[0;34m[0m
[0;34m[0m        [0;34m"""[0m
[0;34m        Compute the reward to be given upon success[0m
[0;34m        """[0m[0;34m[0m
[0;34m[0m        [0mrewards[0m[0;34m[[0m[0mcurrent_agent[0m[0;34m][0m [0;34m+=[0m [0mreward[0m [0;34m-[0m [0;36m0.9[0m [0;34m*[0m [0;34m([0m[0mself[0m[0;34m.[0m[0mstep_count[0m [0;34m/[0m [0mself[0m[0;34m.[0m[0mmax_steps[0m[0;34m)[0m[0;34m[0m
[0;34m[0m        [0;32mreturn[0m [0mrewards[0m[0;34m[0m[0;34m[0m[0m
[0;31mFile:[0m      /media/pc/d

当达到目标状态时，此方法会被调用。`current_agent` 指定哪个代理接收奖励。

如果你的环境有不同的奖励结构，你应该重写这个方法。

### {meth}`~gym_multigrid.multigrid.MultiGridEnv.step`

该方法对你的环境动态至关重要。你应该定义这个方法，并且如果 {class}`~gym_multigrid.multigrid.MultiGridEnv` 的 {meth}`~gym_multigrid.multigrid.MultiGridEnv.step` 方法可以按照你的环境所需的方式处理动作执行，你也可以调用它。

{meth}`~gym_multigrid.multigrid.MultiGridEnv.step` 方法的唯一必需参数是执行的动作列表。默认情况下，这些动作以随机顺序执行或者在达到最大时间步数时结束这一 episode：

In [20]:
MultiGridEnv.step??

[0;31mSignature:[0m
[0mMultiGridEnv[0m[0;34m.[0m[0mstep[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mself[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mactions[0m[0;34m:[0m [0mlist[0m[0;34m[[0m[0mint[0m[0;34m][0m [0;34m|[0m [0mnumpy[0m[0;34m.[0m[0mndarray[0m[0;34m[[0m[0mtyping[0m[0;34m.[0m[0mAny[0m[0;34m,[0m [0mnumpy[0m[0;34m.[0m[0mdtype[0m[0;34m[[0m[0mnumpy[0m[0;34m.[0m[0mint64[0m[0;34m][0m[0;34m][0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m [0;34m->[0m [0mtuple[0m[0;34m[[0m[0mnumpy[0m[0;34m.[0m[0mndarray[0m[0;34m[[0m[0mtyping[0m[0;34m.[0m[0mAny[0m[0;34m,[0m [0mnumpy[0m[0;34m.[0m[0mdtype[0m[0;34m[[0m[0mnumpy[0m[0;34m.[0m[0mint64[0m[0;34m][0m[0;34m][0m[0;34m,[0m [0mnumpy[0m[0;34m.[0m[0mndarray[0m[0;34m[[0m[0mtyping[0m[0;34m.[0m[0mAny[0m[0;34m,[0m [0mnumpy[0m[0;34m.[0m[0mdtype[0m[0;34m[[0m[0mnumpy[0m[0;34m.[0m[0mfloat64[0m[0;34m][0m[0;34m][0m[0;34m,[0

### {meth}`~gym_multigrid.multigrid.MultiGridEnv.reset`

与 `step` 方法一样，你应该为你的环境实现一个方法，并且也可以调用 {class}`~gym_multigrid.multigrid.MultiGridEnv` 的 `reset` 方法，因为它重置了其他变量。

例如，在收集游戏中，我们重置了 `collected_balls` 的数量和 `info` 字典：

In [17]:
CollectGameEnv.reset??

[0;31mSignature:[0m
[0mCollectGameEnv[0m[0;34m.[0m[0mreset[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mself[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0;34m*[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mseed[0m[0;34m:[0m [0mint[0m [0;34m|[0m [0;32mNone[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0moptions[0m[0;34m:[0m [0mdict[0m [0;34m|[0m [0;32mNone[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Resets the environment to an initial internal state, returning an initial observation and info.

This method generates a new starting state often with some randomness to ensure that the agent explores the
state space and learns a generalised policy about the environment. This randomness can be controlled
with the ``seed`` parameter otherwise if the environment already has a random number generator and
:meth:`reset` is called with ``seed=None``, the RNG is not

### `state`/`obs` 编码

默认的网格编码是一个形状为高度 x 宽度 x encode_dim 的 {mod}`numpy`数组。该方法还考虑了部分可观测性。你可能需要编写一个方法，将这个默认编码转换为最适合你的环境和代理算法的格式。

## 第三步：注册环境

在 `gym_multigrid/gym_multigrid/__init.py` 中添加一行代码，以在 `gymnasium` 上注册新创建的环境。

```python
# Collect game with 2 agents and 3 object types
# ----------------------------------------
register(
    id="multigrid-collect-v0",
    entry_point="gym_multigrid.envs:CollectGameEvenDist",
    max_episode_steps=100,
    kwargs={
        "size": 10,
        "num_balls": 15,
        "agents_index": [3, 5],  # green, purple
        "balls_index": [0, 1, 2],  # red, orange, yellow
        "balls_reward": [1, 1, 1],
        "respawn": False,
    },
)
```