比较与torch.nn.SyncBatchNorm的差异

torch.nn.SyncBatchNorm

class torch.nn.SyncBatchNorm(
    num_features,
    eps=1e-05,
    momentum=0.1,
    affine=True,
    track_running_stats=True,
    process_group=None
)(input) -> Tensor

更多内容详见torch.nn.SyncBatchNorm。

mindspore.nn.SyncBatchNorm

class mindspore.nn.SyncBatchNorm(
    num_features,
    eps=1e-5,
    momentum=0.9,
    affine=True,
    gamma_init='ones',
    beta_init='zeros',
    moving_mean_init='zeros',
    moving_var_init='ones',
    use_batch_statistics=None,
    process_groups=None
)(x) -> Tensor

更多内容详见mindspore.nn.SyncBatchNorm。

差异对比

PyTorch：对输入的数据进行跨设备同步批归一化。

MindSpore：MindSpore此API实现功能与PyTorch基本一致。MindSpore输入仅支持二维和四维。MindSpore中momentum参数默认值为0.9，与PyTorch的momentum转换关系为1-momentum，默认值行为与PyTorch相同；训练以及推理时的参数更新策略和PyTorch有所不同。

分类	子类	PyTorch	MindSpore	差异
参数	参数1	num_features	num_features	-
	参数2	eps	eps	-
	参数3	momentum	momentum	功能一致，但PyTorch中的默认值是0.1，MindSpore中是0.9，与PyTorch的momentum转换关系为1-momentum，默认值行为与PyTorch相同
	参数4	affine	affine	-
	参数5	track_running_stats	use_batch_statistics	功能一致，不同值对应的默认方式不同
	参数6	-	gamma_init	PyTorch无此参数，MindSpore可以初始化参数gamma的值
	参数7	-	beta_init	PyTorch无此参数，MindSpore可以初始化参数beta的值
	参数8	-	moving_mean_init	PyTorch无此参数，MindSpore可以初始化参数moving_mean的值
	参数9	-	moving_var_init	PyTorch无此参数，MindSpore可以初始化参数moving_var的值
	参数10	process_group	process_groups	-
输入	单输入	input	x	接口输入，MindSpore只支持二维和四维输入

详细区别如下： BatchNorm是CV领域比较特殊的正则化方法，它在训练和推理的过程中有着不同计算流程，通常由算子属性控制。MindSpore和PyTorch的 BatchNorm在这一点上使用了两种不同的参数组。

差异一

torch.nn.SyncBatchNorm 在不同参数下的状态

training	track_running_stats	状态
True	True	期望中训练的状态，running_mean 和 running_var 会跟踪整个训练过程中 batch 的统计特性，而每组输入数据用当前 batch 的 mean 和 var 统计特性做归一化，然后再更新 running_mean 和 running_var。
True	False	每组输入数据会根据当前 batch 的统计特性做归一化，但不会有 running_mean 和 running_var 参数了。
False	True	期望中推理的状态，BN 使用 running_mean 和 running_var 做归一化，并且不会对其进行更新。
False	False	效果同第二点，只不过处于推理状态，不会学习 weight 和 bias 两个参数。一般不采用该状态。

mindspore.nn.SyncBatchNorm 在不同参数下的状态

use_batch_statistics	状态
True	期望中训练的状态，moving_mean 和 moving_var 会跟踪整个训练过程中 batch 的统计特性，而每组输入数据用当前 batch 的 mean 和 var 统计特性做归一化，然后再更新 moving_mean 和 moving_var。
Fasle	期望中推理的状态，BN 使用 moving_mean 和 moving_var 做归一化，并且不会对其进行更新。
None	自动设置 use_batch_statistics。如果是训练，use_batch_statistics=True，如果是推理，use_batch_statistics=False。

通过比较可以发现，mindspore.nn.SyncBatchNorm 相比 torch.nn.SyncBatchNorm，少了两种冗余的状态，仅保留了最常用的训练和推理两种状态。

差异二

在PyTorch中，网络默认是训练模式，而MindSpore默认是推理模式（is_training为False），需要通过 net.set_train() 方法将网络调整为训练模式，此时才会在训练期间去对参数 mean 和 variance 进行计算，否则，在推理模式下，参数会尝试从checkpoint去加载。
差异三

BatchNorm系列算子的momentum参数在MindSpore和PyTorch表示的意义相反，关系为： $$momentum_{pytorch} = 1 - momentum_{mindspore}$$