量化

概述

量化（Quantization）作为一种重要的大模型压缩技术，通过对模型中的浮点参数转为低精度的整数参数，实现对参数的压缩。随着模型的参数和规格不断增大，量化在模型部署中能有效减少模型存储空间和加载时间，提高模型的推理性能。

MindSpore Transformers 集成 MindSpore Golden Stick 工具组件，提供统一量化推理流程，方便用户开箱即用。请参考 MindSpore Golden Stick 安装教程进行安装，并参考 MindSpore Golden Stick 应用PTQ算法对MindSpore Transformers中的模型进行量化。

当前仅支持以下模型，支持模型持续补充中。