# TVM 中的调度原语

**原作者**: [Ziheng Jiang](https://github.com/ZihengJiang)

TVM 用于高效构建 kernel 的领域特定语言。

在本教程中,将您展示如何通过 TVM 提供的各种原语调度计算。

In [1]:
import tvm
from tvm import te
import numpy as np

通常有几种方法可以计算相同的结果,但是,不同的方法会导致不同的局部性(locality)和性能。因此 TVM 要求用户提供如何执行名为 **Schedule** (调度)的计算。

**Schedule** 是一组变换程序中计算循环的计算变换。

In [2]:
# 声明一些变量以备以后使用
n = te.var("n")
m = te.var("m")

调度可以从 ops 列表中创建,默认情况下,调度以 row-major 顺序的串行方式计算张量。

In [3]:
# 声明矩阵元素级的乘法
A = te.placeholder((m, n), name="A")
B = te.placeholder((m, n), name="B")
C = te.compute((m, n), lambda i, j: A[i, j] * B[i, j], name="C")

s = te.create_schedule([C.op])

`lower` 将计算从定义转换为实际的可调用函数。使用 `simple_mode=True` 参数,它将返回可读的 C like 语句,在这里使用它来打印调度结果。

In [4]:
tvm.lower(s, [A, B, C], simple_mode=True).show()

[38;5;129m@tvm[39m[38;5;129;01m.[39;00mscript[38;5;129;01m.[39;00mir_module
[38;5;28;01mclass[39;00m [38;5;21;01mModule[39;00m:
 [38;5;129m@T[39m[38;5;129;01m.[39;00mprim_func
 [38;5;28;01mdef[39;00m [38;5;21mmain[39m(A: T[38;5;129;01m.[39;00mhandle, B: T[38;5;129;01m.[39;00mhandle, C: T[38;5;129;01m.[39;00mhandle) [38;5;129;01m-[39;00m[38;5;129;01m>[39;00m [38;5;28;01mNone[39;00m:
 [38;5;30;03m# function attr dict[39;00m
 T[38;5;129;01m.[39;00mfunc_attr({[38;5;124m"[39m[38;5;124mfrom_legacy_te_schedule[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m, [38;5;124m"[39m[38;5;124mglobal_symbol[39m[38;5;124m"[39m: [38;5;124m"[39m[38;5;124mmain[39m[38;5;124m"[39m, [38;5;124m"[39m[38;5;124mtir.noalias[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m})
 m [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[38;5;124mint32[39m[38;5;124m"[39m)
 n [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[38;5;1

每个调度由多个阶段(Stage)组成,每个阶段表示一个运算的调度。

下面提供各种方法来调度每个阶段。

## split

`split` 可以通过 `factor` 将指定的轴分裂(split)为两个轴。

In [5]:
m = te.var("m")
A = te.placeholder((m,), name="A")
B = te.compute((m,), lambda i: A[i] * 2, name="B")

s = te.create_schedule(B.op)
xo, xi = s[B].split(B.op.axis[0], factor=32)
tvm.lower(s, [A, B]).show()

[38;5;129m@tvm[39m[38;5;129;01m.[39;00mscript[38;5;129;01m.[39;00mir_module
[38;5;28;01mclass[39;00m [38;5;21;01mModule[39;00m:
 [38;5;129m@T[39m[38;5;129;01m.[39;00mprim_func
 [38;5;28;01mdef[39;00m [38;5;21mmain[39m(A: T[38;5;129;01m.[39;00mhandle, B: T[38;5;129;01m.[39;00mhandle) [38;5;129;01m-[39;00m[38;5;129;01m>[39;00m [38;5;28;01mNone[39;00m:
 [38;5;30;03m# function attr dict[39;00m
 T[38;5;129;01m.[39;00mfunc_attr({[38;5;124m"[39m[38;5;124mfrom_legacy_te_schedule[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m, [38;5;124m"[39m[38;5;124mglobal_symbol[39m[38;5;124m"[39m: [38;5;124m"[39m[38;5;124mmain[39m[38;5;124m"[39m, [38;5;124m"[39m[38;5;124mtir.noalias[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m})
 m [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[38;5;124mint32[39m[38;5;124m"[39m)
 stride [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[38;5;124mint32[39m[38;5;124m"[39m

你也可以通过 `nparts` 分裂轴,它与 `factor` 分割轴相对。

In [6]:
m = te.var("m")
A = te.placeholder((m,), name="A")
B = te.compute((m,), lambda i: A[i], name="B")

s = te.create_schedule(B.op)
bx, tx = s[B].split(B.op.axis[0], nparts=32)
tvm.lower(s, [A, B], simple_mode=True).show()

[38;5;129m@tvm[39m[38;5;129;01m.[39;00mscript[38;5;129;01m.[39;00mir_module
[38;5;28;01mclass[39;00m [38;5;21;01mModule[39;00m:
 [38;5;129m@T[39m[38;5;129;01m.[39;00mprim_func
 [38;5;28;01mdef[39;00m [38;5;21mmain[39m(A: T[38;5;129;01m.[39;00mhandle, B: T[38;5;129;01m.[39;00mhandle) [38;5;129;01m-[39;00m[38;5;129;01m>[39;00m [38;5;28;01mNone[39;00m:
 [38;5;30;03m# function attr dict[39;00m
 T[38;5;129;01m.[39;00mfunc_attr({[38;5;124m"[39m[38;5;124mfrom_legacy_te_schedule[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m, [38;5;124m"[39m[38;5;124mglobal_symbol[39m[38;5;124m"[39m: [38;5;124m"[39m[38;5;124mmain[39m[38;5;124m"[39m, [38;5;124m"[39m[38;5;124mtir.noalias[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m})
 m [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[38;5;124mint32[39m[38;5;124m"[39m)
 stride [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[38;5;124mint32[39m[38;5;124m"[39m

## tile

`tile` 帮助你在两个轴上逐块(tile by tile)执行计算。

In [7]:
A = te.placeholder((m, n), name="A")
B = te.compute((m, n), lambda i, j: A[i, j], name="B")

s = te.create_schedule(B.op)
xo, yo, xi, yi = s[B].tile(B.op.axis[0], B.op.axis[1], x_factor=10, y_factor=5)
tvm.lower(s, [A, B], simple_mode=True).show()

[38;5;129m@tvm[39m[38;5;129;01m.[39;00mscript[38;5;129;01m.[39;00mir_module
[38;5;28;01mclass[39;00m [38;5;21;01mModule[39;00m:
 [38;5;129m@T[39m[38;5;129;01m.[39;00mprim_func
 [38;5;28;01mdef[39;00m [38;5;21mmain[39m(A: T[38;5;129;01m.[39;00mhandle, B: T[38;5;129;01m.[39;00mhandle) [38;5;129;01m-[39;00m[38;5;129;01m>[39;00m [38;5;28;01mNone[39;00m:
 [38;5;30;03m# function attr dict[39;00m
 T[38;5;129;01m.[39;00mfunc_attr({[38;5;124m"[39m[38;5;124mfrom_legacy_te_schedule[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m, [38;5;124m"[39m[38;5;124mglobal_symbol[39m[38;5;124m"[39m: [38;5;124m"[39m[38;5;124mmain[39m[38;5;124m"[39m, [38;5;124m"[39m[38;5;124mtir.noalias[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m})
 m [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[38;5;124mint32[39m[38;5;124m"[39m)
 n [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[38;5;124mint32[39m[38;5;124m"[39m)
 st

## fuse

`fuse` 可以融合一个计算的两个连续轴。


In [8]:
A = te.placeholder((m, n), name="A")
B = te.compute((m, n), lambda i, j: A[i, j], name="B")

s = te.create_schedule(B.op)
# tile to four axes first: (i.outer, j.outer, i.inner, j.inner)
xo, yo, xi, yi = s[B].tile(B.op.axis[0], B.op.axis[1], x_factor=10, y_factor=5)
# then fuse (i.inner, j.inner) into one axis: (i.inner.j.inner.fused)
fused = s[B].fuse(xi, yi)
tvm.lower(s, [A, B], simple_mode=True).show()

[38;5;129m@tvm[39m[38;5;129;01m.[39;00mscript[38;5;129;01m.[39;00mir_module
[38;5;28;01mclass[39;00m [38;5;21;01mModule[39;00m:
 [38;5;129m@T[39m[38;5;129;01m.[39;00mprim_func
 [38;5;28;01mdef[39;00m [38;5;21mmain[39m(A: T[38;5;129;01m.[39;00mhandle, B: T[38;5;129;01m.[39;00mhandle) [38;5;129;01m-[39;00m[38;5;129;01m>[39;00m [38;5;28;01mNone[39;00m:
 [38;5;30;03m# function attr dict[39;00m
 T[38;5;129;01m.[39;00mfunc_attr({[38;5;124m"[39m[38;5;124mfrom_legacy_te_schedule[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m, [38;5;124m"[39m[38;5;124mglobal_symbol[39m[38;5;124m"[39m: [38;5;124m"[39m[38;5;124mmain[39m[38;5;124m"[39m, [38;5;124m"[39m[38;5;124mtir.noalias[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m})
 m [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[38;5;124mint32[39m[38;5;124m"[39m)
 n [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[38;5;124mint32[39m[38;5;124m"[39m)
 st

## reorder
:code:`reorder` can reorder the axes in the specified order.



In [9]:
A = te.placeholder((m, n), name="A")
B = te.compute((m, n), lambda i, j: A[i, j], name="B")

s = te.create_schedule(B.op)
# tile to four axes first: (i.outer, j.outer, i.inner, j.inner)
xo, yo, xi, yi = s[B].tile(B.op.axis[0], B.op.axis[1], x_factor=10, y_factor=5)
# then reorder the axes: (i.inner, j.outer, i.outer, j.inner)
s[B].reorder(xi, yo, xo, yi)
tvm.lower(s, [A, B], simple_mode=True).show()

[38;5;129m@tvm[39m[38;5;129;01m.[39;00mscript[38;5;129;01m.[39;00mir_module
[38;5;28;01mclass[39;00m [38;5;21;01mModule[39;00m:
 [38;5;129m@T[39m[38;5;129;01m.[39;00mprim_func
 [38;5;28;01mdef[39;00m [38;5;21mmain[39m(A: T[38;5;129;01m.[39;00mhandle, B: T[38;5;129;01m.[39;00mhandle) [38;5;129;01m-[39;00m[38;5;129;01m>[39;00m [38;5;28;01mNone[39;00m:
 [38;5;30;03m# function attr dict[39;00m
 T[38;5;129;01m.[39;00mfunc_attr({[38;5;124m"[39m[38;5;124mfrom_legacy_te_schedule[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m, [38;5;124m"[39m[38;5;124mglobal_symbol[39m[38;5;124m"[39m: [38;5;124m"[39m[38;5;124mmain[39m[38;5;124m"[39m, [38;5;124m"[39m[38;5;124mtir.noalias[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m})
 m [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[38;5;124mint32[39m[38;5;124m"[39m)
 n [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[38;5;124mint32[39m[38;5;124m"[39m)
 st

## bind
:code:`bind` can bind a specified axis with a thread axis, often used
in gpu programming.



In [10]:
A = te.placeholder((n,), name="A")
B = te.compute(A.shape, lambda i: A[i] * 2, name="B")

s = te.create_schedule(B.op)
bx, tx = s[B].split(B.op.axis[0], factor=64)
s[B].bind(bx, te.thread_axis("blockIdx.x"))
s[B].bind(tx, te.thread_axis("threadIdx.x"))
tvm.lower(s, [A, B], simple_mode=True).show()

[38;5;129m@tvm[39m[38;5;129;01m.[39;00mscript[38;5;129;01m.[39;00mir_module
[38;5;28;01mclass[39;00m [38;5;21;01mModule[39;00m:
 [38;5;129m@T[39m[38;5;129;01m.[39;00mprim_func
 [38;5;28;01mdef[39;00m [38;5;21mmain[39m(A: T[38;5;129;01m.[39;00mhandle, B: T[38;5;129;01m.[39;00mhandle) [38;5;129;01m-[39;00m[38;5;129;01m>[39;00m [38;5;28;01mNone[39;00m:
 [38;5;30;03m# function attr dict[39;00m
 T[38;5;129;01m.[39;00mfunc_attr({[38;5;124m"[39m[38;5;124mfrom_legacy_te_schedule[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m, [38;5;124m"[39m[38;5;124mglobal_symbol[39m[38;5;124m"[39m: [38;5;124m"[39m[38;5;124mmain[39m[38;5;124m"[39m, [38;5;124m"[39m[38;5;124mtir.noalias[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m})
 [38;5;30;03m# var definition[39;00m
 threadIdx_x [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00menv_thread([38;5;124m"[39m[38;5;124mthreadIdx.x[39m[38;5;124m"[39m)
 blockIdx_x [38;5;129;01m=[39;00m T[38;5;129;01m.

## compute_at
For a schedule that consists of multiple operators, TVM will compute
tensors at the root separately by default.



In [11]:
A = te.placeholder((m,), name="A")
B = te.compute((m,), lambda i: A[i] + 1, name="B")
C = te.compute((m,), lambda i: B[i] * 2, name="C")

s = te.create_schedule(C.op)
tvm.lower(s, [A, B, C], simple_mode=True).show()

[38;5;129m@tvm[39m[38;5;129;01m.[39;00mscript[38;5;129;01m.[39;00mir_module
[38;5;28;01mclass[39;00m [38;5;21;01mModule[39;00m:
 [38;5;129m@T[39m[38;5;129;01m.[39;00mprim_func
 [38;5;28;01mdef[39;00m [38;5;21mmain[39m(A: T[38;5;129;01m.[39;00mhandle, B: T[38;5;129;01m.[39;00mhandle, C: T[38;5;129;01m.[39;00mhandle) [38;5;129;01m-[39;00m[38;5;129;01m>[39;00m [38;5;28;01mNone[39;00m:
 [38;5;30;03m# function attr dict[39;00m
 T[38;5;129;01m.[39;00mfunc_attr({[38;5;124m"[39m[38;5;124mfrom_legacy_te_schedule[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m, [38;5;124m"[39m[38;5;124mglobal_symbol[39m[38;5;124m"[39m: [38;5;124m"[39m[38;5;124mmain[39m[38;5;124m"[39m, [38;5;124m"[39m[38;5;124mtir.noalias[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m})
 m [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[38;5;124mint32[39m[38;5;124m"[39m)
 stride [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[3

:code:`compute_at` can move computation of `B` into the first axis
of computation of `C`.



In [12]:
A = te.placeholder((m,), name="A")
B = te.compute((m,), lambda i: A[i] + 1, name="B")
C = te.compute((m,), lambda i: B[i] * 2, name="C")

s = te.create_schedule(C.op)
s[B].compute_at(s[C], C.op.axis[0])
tvm.lower(s, [A, B, C], simple_mode=True).show()

[38;5;129m@tvm[39m[38;5;129;01m.[39;00mscript[38;5;129;01m.[39;00mir_module
[38;5;28;01mclass[39;00m [38;5;21;01mModule[39;00m:
 [38;5;129m@T[39m[38;5;129;01m.[39;00mprim_func
 [38;5;28;01mdef[39;00m [38;5;21mmain[39m(A: T[38;5;129;01m.[39;00mhandle, B: T[38;5;129;01m.[39;00mhandle, C: T[38;5;129;01m.[39;00mhandle) [38;5;129;01m-[39;00m[38;5;129;01m>[39;00m [38;5;28;01mNone[39;00m:
 [38;5;30;03m# function attr dict[39;00m
 T[38;5;129;01m.[39;00mfunc_attr({[38;5;124m"[39m[38;5;124mfrom_legacy_te_schedule[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m, [38;5;124m"[39m[38;5;124mglobal_symbol[39m[38;5;124m"[39m: [38;5;124m"[39m[38;5;124mmain[39m[38;5;124m"[39m, [38;5;124m"[39m[38;5;124mtir.noalias[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m})
 m [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[38;5;124mint32[39m[38;5;124m"[39m)
 stride [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[3

## compute_inline
:code:`compute_inline` can mark one stage as inline, then the body of
computation will be expanded and inserted at the address where the
tensor is required.



In [13]:
A = te.placeholder((m,), name="A")
B = te.compute((m,), lambda i: A[i] + 1, name="B")
C = te.compute((m,), lambda i: B[i] * 2, name="C")

s = te.create_schedule(C.op)
s[B].compute_inline()
tvm.lower(s, [A, B, C], simple_mode=True).show()

[38;5;129m@tvm[39m[38;5;129;01m.[39;00mscript[38;5;129;01m.[39;00mir_module
[38;5;28;01mclass[39;00m [38;5;21;01mModule[39;00m:
 [38;5;129m@T[39m[38;5;129;01m.[39;00mprim_func
 [38;5;28;01mdef[39;00m [38;5;21mmain[39m(A: T[38;5;129;01m.[39;00mhandle, B: T[38;5;129;01m.[39;00mhandle, C: T[38;5;129;01m.[39;00mhandle) [38;5;129;01m-[39;00m[38;5;129;01m>[39;00m [38;5;28;01mNone[39;00m:
 [38;5;30;03m# function attr dict[39;00m
 T[38;5;129;01m.[39;00mfunc_attr({[38;5;124m"[39m[38;5;124mfrom_legacy_te_schedule[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m, [38;5;124m"[39m[38;5;124mglobal_symbol[39m[38;5;124m"[39m: [38;5;124m"[39m[38;5;124mmain[39m[38;5;124m"[39m, [38;5;124m"[39m[38;5;124mtir.noalias[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m})
 m [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[38;5;124mint32[39m[38;5;124m"[39m)
 stride [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[3

## compute_root
:code:`compute_root` can move computation of one stage to the root.



In [14]:
A = te.placeholder((m,), name="A")
B = te.compute((m,), lambda i: A[i] + 1, name="B")
C = te.compute((m,), lambda i: B[i] * 2, name="C")

s = te.create_schedule(C.op)
s[B].compute_at(s[C], C.op.axis[0])
s[B].compute_root()
tvm.lower(s, [A, B, C], simple_mode=True).show()

[38;5;129m@tvm[39m[38;5;129;01m.[39;00mscript[38;5;129;01m.[39;00mir_module
[38;5;28;01mclass[39;00m [38;5;21;01mModule[39;00m:
 [38;5;129m@T[39m[38;5;129;01m.[39;00mprim_func
 [38;5;28;01mdef[39;00m [38;5;21mmain[39m(A: T[38;5;129;01m.[39;00mhandle, B: T[38;5;129;01m.[39;00mhandle, C: T[38;5;129;01m.[39;00mhandle) [38;5;129;01m-[39;00m[38;5;129;01m>[39;00m [38;5;28;01mNone[39;00m:
 [38;5;30;03m# function attr dict[39;00m
 T[38;5;129;01m.[39;00mfunc_attr({[38;5;124m"[39m[38;5;124mfrom_legacy_te_schedule[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m, [38;5;124m"[39m[38;5;124mglobal_symbol[39m[38;5;124m"[39m: [38;5;124m"[39m[38;5;124mmain[39m[38;5;124m"[39m, [38;5;124m"[39m[38;5;124mtir.noalias[39m[38;5;124m"[39m: [38;5;28;01mTrue[39;00m})
 m [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[38;5;124mint32[39m[38;5;124m"[39m)
 stride [38;5;129;01m=[39;00m T[38;5;129;01m.[39;00mvar([38;5;124m"[39m[3

## Summary
This tutorial provides an introduction to schedule primitives in
tvm, which permits users schedule the computation easily and
flexibly.

In order to get a good performance kernel implementation, the
general workflow often is:

- Describe your computation via series of operations.
- Try to schedule the computation with primitives.
- Compile and run to see the performance difference.
- Adjust your schedule according the running result.

