比较与torch.nn.SyncBatchNorm的差异
torch.nn.SyncBatchNorm
class torch.nn.SyncBatchNorm(
num_features,
eps=1e-05,
momentum=0.1,
affine=True,
track_running_stats=True,
process_group=None
)(input) -> Tensor
更多内容详见torch.nn.SyncBatchNorm。
mindspore.nn.SyncBatchNorm
class mindspore.nn.SyncBatchNorm(
num_features,
eps=1e-5,
momentum=0.9,
affine=True,
gamma_init='ones',
beta_init='zeros',
moving_mean_init='zeros',
moving_var_init='ones',
use_batch_statistics=None,
process_groups=None
)(x) -> Tensor
更多内容详见mindspore.nn.SyncBatchNorm。
差异对比
PyTorch:对输入的数据进行跨设备同步批归一化。
MindSpore:MindSpore此API实现功能与PyTorch基本一致。MindSpore输入仅支持二维和四维。MindSpore中momentum参数默认值为0.9,与PyTorch的momentum转换关系为1-momentum,默认值行为与PyTorch相同;训练以及推理时的参数更新策略和PyTorch有所不同。
分类 |
子类 |
PyTorch |
MindSpore |
差异 |
---|---|---|---|---|
参数 |
参数1 |
num_features |
num_features |
- |
参数2 |
eps |
eps |
- |
|
参数3 |
momentum |
momentum |
功能一致,但PyTorch中的默认值是0.1,MindSpore中是0.9,与PyTorch的momentum转换关系为1-momentum,默认值行为与PyTorch相同 |
|
参数4 |
affine |
affine |
- |
|
参数5 |
track_running_stats |
use_batch_statistics |
功能一致,不同值对应的默认方式不同 |
|
参数6 |
- |
gamma_init |
PyTorch无此参数,MindSpore可以初始化参数gamma的值 |
|
参数7 |
- |
beta_init |
PyTorch无此参数,MindSpore可以初始化参数beta的值 |
|
参数8 |
- |
moving_mean_init |
PyTorch无此参数,MindSpore可以初始化参数moving_mean的值 |
|
参数9 |
- |
moving_var_init |
PyTorch无此参数,MindSpore可以初始化参数moving_var的值 |
|
参数10 |
process_group |
process_groups |
- |
|
输入 |
单输入 |
input |
x |
接口输入,MindSpore只支持二维和四维输入 |
详细区别如下: BatchNorm是CV领域比较特殊的正则化方法,它在训练和推理的过程中有着不同计算流程,通常由算子属性控制。MindSpore和PyTorch的 BatchNorm在这一点上使用了两种不同的参数组。
差异一
torch.nn.SyncBatchNorm
在不同参数下的状态training
track_running_stats
状态
True
True
期望中训练的状态,running_mean 和 running_var 会跟踪整个训练过程中 batch 的统计特性,而每组输入数据用当前 batch 的 mean 和 var 统计特性做归一化,然后再更新 running_mean 和 running_var。
True
False
每组输入数据会根据当前 batch 的统计特性做归一化,但不会有 running_mean 和 running_var 参数了。
False
True
期望中推理的状态,BN 使用 running_mean 和 running_var 做归一化,并且不会对其进行更新。
False
False
效果同第二点,只不过处于推理状态,不会学习 weight 和 bias 两个参数。一般不采用该状态。
mindspore.nn.SyncBatchNorm
在不同参数下的状态use_batch_statistics
状态
True
期望中训练的状态,moving_mean 和 moving_var 会跟踪整个训练过程中 batch 的统计特性,而每组输入数据用当前 batch 的 mean 和 var 统计特性做归一化,然后再更新 moving_mean 和 moving_var。
Fasle
期望中推理的状态,BN 使用 moving_mean 和 moving_var 做归一化,并且不会对其进行更新。
None
自动设置 use_batch_statistics。如果是训练,use_batch_statistics=True,如果是推理,use_batch_statistics=False。
通过比较可以发现,
mindspore.nn.SyncBatchNorm
相比torch.nn.SyncBatchNorm
,少了两种冗余的状态,仅保留了最常用的训练和推理两种状态。差异二
在PyTorch中,网络默认是训练模式,而MindSpore默认是推理模式(
is_training
为False),需要通过net.set_train()
方法将网络调整为训练模式,此时才会在训练期间去对参数mean
和variance
进行计算,否则,在推理模式下,参数会尝试从checkpoint去加载。差异三
BatchNorm系列算子的momentum参数在MindSpore和PyTorch表示的意义相反,关系为: $\(momentum_{pytorch} = 1 - momentum_{mindspore}\)$