Release Notes

MindSpore Golden Stick 0.6.0 Release Notes

主要特性和增强

  • RoundToNearest 支持将MindFormers的kvcache即 PagedAttentionMgr 类量化成int8,主要针对Llama2系列网络。

  • 新增训练后量化算法 PTQ,支持SmoothQuant、A16W8、KVCacheInt8以及他们之间的组合算法,比如A16W8组合KVCacheInt8,SmoothQuant组合KVCacheInt8等,可以通过配置PTQConfig获取相应的算法能力。该算法主要支持MindFormers社区的ParallelLlama2网络。

API变更

  • PTQConfig新增如下三个参数:

    • act_quant_dtype:mindspore.dtype类型,默认为None,可选输入及含义如下:

      act_quant_dtype

      mindspore.dtype.int8

      None(默认)

      含义

      将激活量化成int8

      不进行激活量化

    • weight_quant_dtype:mindspore.dtype类型,默认为mindspore.dtype.int8,可选输入及含义如下:

      weight_quant_dtype

      mindspore.dtype.int8(默认)

      None

      含义

      将权重量化成int8

      不进行权重量化

    • kvcache_quant_dtype:mindspore.dtype类型,默认为None,可选输入及含义如下:

      kvcache_quant_dtype

      mindspore.dtype.int8

      None(默认)

      含义

      将kvcache量化成int8

      不进行kvcache量化

    • outliers_suppression:OutliersSuppressionType类型,默认为OutliersSuppressionType.NONE,可选输入及含义如下:

      outliers_suppression

      OutliersSuppressionType.SMOOTH

      OutliersSuppressionType.NONE(默认)

      含义

      使用smooth方法对权重和激活进行异常值抑制

      不进行异常值抑制

贡献者

感谢以下人员做出的贡献:

ccsszz, yyyyrf, hangangqiang

欢迎以任何形式对项目提供贡献!