3. 快速开始

本章将以 ONNX 模型为例, 讲述如何通过 PopRT 进行模型转换和快速部署.


  • 本章中的示例需要使用 PopRT, 请确保 PopRT 已经安装成功. 如未安装 PopRT, 请参考 安装.

  • PopRT 支持转换并运行 ONNX 模型, 同时可以导出 PopEF 用于模型部署. PopEF 是 Poplar SDK 提供的用于导入和导出模型的一种统一的文件格式. PopEF 中包含了经过 Poplar 编译器编译, 可以在 IPU 上运行的二进制代码, 模型的输入输出, 以及模型运行所需的硬件信息. 更多信息请参考 PopEF .

3.1. 主要参数介绍

--input_model (必要)原 ONNX 模型路径及名称.

--show (可选)仅打印模型的输入输出信息.

--input_shape (可选)指定模型输入 shape.

--output_model (可选)转换后的模型名称, 存放路径默认是当前目录. 如果不指定该参数, 将按默认名称保存转换后的模型.

--precision (可选)指定转换后的模型精度. 如果不指定该参数, 将默认使用原模型精度.

--run (可选)使用随机数运行转换后的模型.

--export_popef (可选)导出编译生成的 PopEF.


  • --input_shape 仅支持指定输入 shape 中的可变维度, 不能改变已知维度大小.

  • IPU 仅支持静态图, 如果模型的输入 shape 可变, 必须使用 --input_shape 指定输入 shape.

  • 更多配置请参考 使用 PopRT.

3.2. 转换并运行模型

本节将以 ONNX model zoo 中的 BERT-Squad 模型为例, 讲述如何进行模型转换.

3.2.1. 下载 ONNX 模型

wget https://github.com/onnx/models/raw/main/text/machine_comprehension/bert-squad/model/bertsquad-12.onnx

3.2.2. 获取 ONNX 模型输入输出信息

python -m poprt.cli \
    --input_model bertsquad-12.onnx \

# 模型输入输出信息
2023-01-06 02:59:32,897 INFO cli.py:327] Input unique_ids_raw_output___9:0: dtype - int64, shape - [0]
2023-01-06 02:59:32,897 INFO cli.py:327] Input segment_ids:0: dtype - int64, shape - [0, 256]
2023-01-06 02:59:32,897 INFO cli.py:327] Input input_mask:0: dtype - int64, shape - [0, 256]
2023-01-06 02:59:32,898 INFO cli.py:327] Input input_ids:0: dtype - int64, shape - [0, 256]
2023-01-06 02:59:32,898 INFO cli.py:334] Output unstack:1: dtype - float32, shape - [0, 256]
2023-01-06 02:59:32,898 INFO cli.py:334] Output unstack:0: dtype - float32, shape - [0, 256]
2023-01-06 02:59:32,898 INFO cli.py:334] Output unique_ids:0: dtype - int64, shape - [0]

3.2.3. 指定输入 shape

根据原模型的输入输出信息, 原模型的输入 shape 是可变的, 需要使用 --input_shape 指定输入 shape, 该示例以 batch size = 2 为例.


  • 原模型输入是 int64, 由于 IPU 不支持 int64, 转换的模型输入将变为 int32.

python -m poprt.cli \
    --input_model bertsquad-12.onnx \
    --input_shape unique_ids_raw_output___9:0=2 segment_ids:0=2,256 input_mask:0=2,256 input_ids:0=2,256 \
    --output_model bertsquad-12_fp32_bs2.onnx

3.2.4. 指定模型精度

根据原模型的输入输出信息, 原模型的精度是 fp32 的, 该示例以转换为 fp16 为例.

python -m poprt.cli \
    --input_model bertsquad-12.onnx \
    --input_shape unique_ids_raw_output___9:0=2 segment_ids:0=2,256 input_mask:0=2,256 input_ids:0=2,256 \
    --output_model bertsquad-12_fp16_bs2.onnx \
    --precision fp16

3.2.5. 运行模型


  • --run 可用于快速验证转换后的模型是否可以正常编译并在 IPU 上运行.

  • 该示例中展示的数据并不代表最优性能, 仅通过默认转换流程进行演示.

# 转换并编译运行 fp32  ONNX 模型
python -m poprt.cli \
    --input_model bertsquad-12.onnx \
    --input_shape unique_ids_raw_output___9:0=2 segment_ids:0=2,256 input_mask:0=2,256 input_ids:0=2,256 \
    --output_model bertsquad-12_fp32_bs2.onnx \

# 随机数运行结果
2023-01-06 05:58:14,209 INFO cli.py:452] Bs: 2
2023-01-06 05:58:14,209 INFO cli.py:455] Latency: 4.58ms
2023-01-06 05:58:14,210 INFO cli.py:456] Tput: 436

# 转换并编译运行 fp16  ONNX 模型
python -m poprt.cli \
    --input_model bertsquad-12.onnx \
    --input_shape unique_ids_raw_output___9:0=2 segment_ids:0=2,256 input_mask:0=2,256 input_ids:0=2,256 \
    --output_model bertsquad-12_fp16_bs2.onnx \
    --precision fp16 \

# 随机数运行结果
2023-01-06 06:00:59,283 INFO cli.py:452] Bs: 2
2023-01-06 06:00:59,283 INFO cli.py:455] Latency: 2.23ms
2023-01-06 06:00:59,283 INFO cli.py:456] Tput: 896

3.2.6. 导出 PopEF

导出 PopEF 可用于离线部署.


  • --export_popef 使用默认名称 executable.popef 保存 PopEF 文件, 需要注意多次导出会被覆盖.

# 转换并编译导出 fp32  PopEF
python -m poprt.cli \
    --input_model bertsquad-12.onnx \
    --input_shape unique_ids_raw_output___9:0=2 segment_ids:0=2,256 input_mask:0=2,256 input_ids:0=2,256 \

# 转换并编译导出 fp16  PopEF
python -m poprt.cli \
    --input_model bertsquad-12.onnx \
    --input_shape unique_ids_raw_output___9:0=2 segment_ids:0=2,256 input_mask:0=2,256 input_ids:0=2,256 \
    --precision fp16 \

3.3. 快速部署

本节将以上节中转换得到的 ONNX 模型 和 PopEF 为例, 讲述如何使用 PopRT Python API 进行快速部署.

3.3.1. 运行导出的 PopEF

from poprt import runtime
import numpy as np

# 创建 ModelRunner 实例, 并加载 PopEF 文件
runner = runtime.ModelRunner('executable.popef')

# 获取模型输出信息
outputs = runner.get_model_outputs()

# 创建输入输出数据
input_dict = {
    "unique_ids_raw_output___9:0": np.ones([2]).astype(np.int32),
    "segment_ids:0": np.ones([2, 256]).astype(np.int32),
    "input_mask:0": np.ones([2, 256]).astype(np.int32),
    "input_ids:0": np.ones([2, 256]).astype(np.int32),
output_dict = {x.name: np.zeros(x.shape).astype(x.numpy_data_type()) for x in outputs}

# 运行 PopEF
runner.execute(input_dict, output_dict)

3.3.2. 运行转换后的 ONNX 模型

除了将 ONNX 模型编译成 PopEF 文件, 也可以直接通过 PopRT 的 Compiler 来直接编译转换后新生成的 ONNX 文件, 并通过 ModelRunner 运行编译后生成的 PopEF 实例.

import onnx
import numpy as np
from poprt import runtime
from poprt.compiler import Compiler

# 导入 ONNX 模型
model = onnx.load("bertsquad-12_fp32_bs2.onnx")
model_bytes = model.SerializeToString()
output_names = [o.name for o in model.graph.output]

# 编译 ONNX 并生成 PopEF 实例
executable = Compiler.compile(model_bytes, output_names)

# 创建 ModelRunner 实例, 并加载 PopEF 实例
runner = runtime.ModelRunner(executable)

# 获取模型输出信息
outputs = runner.get_model_outputs()

# 创建输入输出数据
input_dict = {
    "unique_ids_raw_output___9:0": np.ones([2]).astype(np.int32),
    "segment_ids:0": np.ones([2, 256]).astype(np.int32),
    "input_mask:0": np.ones([2, 256]).astype(np.int32),
    "input_ids:0": np.ones([2, 256]).astype(np.int32),
output_dict = {x.name: np.zeros(x.shape).astype(x.numpy_data_type()) for x in outputs}

# 运行 PopEF
runner.execute(input_dict, output_dict)

3.4. Python API 示例

下面是完全通过 Python API 对 ONNX 模型进行 convert, compile, run 的示例:

Listing 3.1 convert_compile_and_run.py
  1# Copyright (c) 2022 Graphcore Ltd. All rights reserved.
  2import argparse
  3import time
  5from typing import Dict
  7import numpy as np
  8import onnx
 10from onnx import helper
 12from poprt import Pass, runtime
 13from poprt.compiler import Compiler, CompilerOptions
 14from poprt.converter import Converter
 15from poprt.utils import get_logger
 17RuntimeInput = Dict[str, np.ndarray]
 20def convert(model_proto: onnx.ModelProto, args) -> onnx.ModelProto:
 21    """Convert ONNX model to a new optimized ONNX model."""
 22    converter = Converter(convert_version=11, precision='fp16')
 23    converted_model = converter.convert(model_proto, get_logger())
 24    # Add other passes here
 25    converted_model = Pass.get_pass('int64_to_int32')(converted_model)
 26    converted_model = Pass.get_pass('gelu_pattern')(converted_model)
 27    return converted_model
 30def compile(model: onnx.ModelProto, args):
 31    """Compile ONNX to PopEF."""
 32    model_bytes = model.SerializeToString()
 33    outputs = [o.name for o in model.graph.output]
 35    options = CompilerOptions()
 36    options.num_ipus = 1
 37    options.ipu_version = runtime.DeviceManager().ipu_hardware_version()
 38    options.batches_per_step = args.batches_per_step
 39    options.partials_type = 'half'
 40    executable = Compiler.compile(model_bytes, outputs, options)
 41    return executable
 44def run_synchronous(
 45    model_runner: runtime.ModelRunner,
 46    input: RuntimeInput,
 47    output: RuntimeInput,
 48    iterations: int,
 49) -> None:
 50    deltas = []
 51    sess_start = time.time()
 52    for _ in range(iterations):
 53        start = time.time()
 54        model_runner.execute(input, output)
 55        end = time.time()
 56        deltas.append(end - start)
 57    sess_end = time.time()
 59    latency = sum(deltas) / len(deltas) * 1000
 60    print(f'Latency : {latency:.3f}ms')
 61    avg_sess_time = (sess_end - sess_start) / iterations * 1000
 62    print(f'Synchorous avg Session Time : {avg_sess_time:.3f}ms')
 65def run_asynchronous(
 66    model_runner: runtime.ModelRunner,
 67    input: RuntimeInput,
 68    output: RuntimeInput,
 69    iterations: int,
 70) -> None:
 71    # precreate multiple numbers of outputs
 72    async_inputs = [input] * iterations
 73    async_outputs = [output] * iterations
 74    futures = []
 76    sess_start = time.time()
 77    for i in range(iterations):
 78        f = model_runner.executeAsync(async_inputs[i], async_outputs[i])
 79        futures.append(f)
 81    # waits all execution ends
 82    for i, future in enumerate(futures):
 83        future.wait()
 84    sess_end = time.time()
 86    avg_sess_time = (sess_end - sess_start) / iterations * 1000
 87    print(f'Asyncronous avg Session Time : {avg_sess_time:.3f}ms')
 90def run(executable, args):
 91    """Run PopEF."""
 92    # Create model runner
 93    model_runner = runtime.ModelRunner(executable)
 95    # fix random number generation
 96    np.random.seed(2022)
 98    # Prepare inputs and outpus
 99    inputs = {}
100    inputs_info = model_runner.get_model_inputs()
101    for input in inputs_info:
102        inputs[input.name] = np.random.uniform(0, 1, input.shape).astype(
103            input.numpy_data_type()
104        )
106    outputs = {}
107    outputs_info = model_runner.get_model_outputs()
108    for output in outputs_info:
109        outputs[output.name] = np.zeros(output.shape, dtype=output.numpy_data_type())
111    # Run
112    # To correctly generate the popvision report, iteration must be a
113    # multiple of batches_per_step and greater than 2 * batches_per_step
114    iteration = args.batches_per_step * 10
116    # warm up device
117    for _ in range(10):
118        model_runner.execute(inputs, outputs)
120    run_synchronous(model_runner, inputs, outputs, iteration)
121    run_asynchronous(model_runner, inputs, outputs, iteration)
124def default_model():
125    TensorProto = onnx.TensorProto
126    matmul = helper.make_node("MatMul", ["X", "Y"], ["Z"])
127    add = helper.make_node("Add", ["Z", "A"], ["B"])
128    graph = helper.make_graph(
129        [matmul, add],
130        "test",
131        [
132            helper.make_tensor_value_info("X", TensorProto.FLOAT, (4, 4, 8, 16)),
133            helper.make_tensor_value_info("Y", TensorProto.FLOAT, (4, 4, 16, 8)),
134            helper.make_tensor_value_info("A", TensorProto.FLOAT, (4, 4, 8, 8)),
135        ],
136        [helper.make_tensor_value_info("B", TensorProto.FLOAT, (4, 4, 8, 8))],
137    )
138    opset_imports = [helper.make_opsetid("", 11)]
139    original_model = helper.make_model(graph, opset_imports=opset_imports)
140    return original_model
143if __name__ == '__main__':
144    parser = argparse.ArgumentParser(
145        description='Convert onnx model and run it on IPU.'
146    )
147    parser.add_argument('--onnx_model', type=str, help="Full path of the onnx model.")
148    parser.add_argument(
149        '--batches_per_step',
150        type=int,
151        default=100,
152        help="The number of on-chip loop count.",
153    )
154    parser.add_argument('--popef', type=str, help="Full path of the popef file")
155    args = parser.parse_args()
157    if args.popef:
158        run(args.popef, args)
159    else:
160        if not args.onnx_model:
161            print("No onnx model provided, run default model.")
162            model = default_model()
163        else:
164            print(f"Run onnx model {args.onnx_model}")
165            model = onnx.load(args.onnx_model)
167        converted_model = convert(model, args)
168        executable = compile(converted_model, args)
169        run(executable, args)

