Release Notes
MindSpore Golden Stick 0.6.0 Release Notes
主要特性和增强
RoundToNearest
支持将MindFormers的kvcache即PagedAttentionMgr
类量化成int8,主要针对Llama2系列网络。新增训练后量化算法
PTQ
,支持SmoothQuant、A16W8、KVCacheInt8以及他们之间的组合算法,比如A16W8组合KVCacheInt8,SmoothQuant组合KVCacheInt8等,可以通过配置PTQConfig获取相应的算法能力。该算法主要支持MindFormers社区的ParallelLlama2网络。
API变更
PTQConfig
新增如下三个参数:act_quant_dtype
:mindspore.dtype类型,默认为None,可选输入及含义如下:act_quant_dtype
mindspore.dtype.int8
None(默认)
含义
将激活量化成int8
不进行激活量化
weight_quant_dtype
:mindspore.dtype类型,默认为mindspore.dtype.int8,可选输入及含义如下:weight_quant_dtype
mindspore.dtype.int8(默认)
None
含义
将权重量化成int8
不进行权重量化
kvcache_quant_dtype
:mindspore.dtype类型,默认为None,可选输入及含义如下:kvcache_quant_dtype
mindspore.dtype.int8
None(默认)
含义
将kvcache量化成int8
不进行kvcache量化
outliers_suppression
:OutliersSuppressionType类型,默认为OutliersSuppressionType.NONE,可选输入及含义如下:outliers_suppression
OutliersSuppressionType.SMOOTH
OutliersSuppressionType.NONE(默认)
含义
使用smooth方法对权重和激活进行异常值抑制
不进行异常值抑制
贡献者
感谢以下人员做出的贡献:
ccsszz, yyyyrf, hangangqiang
欢迎以任何形式对项目提供贡献!