文档反馈

问题文档片段

问题文档片段包含公式时,显示为空格。

提交类型
issue

有点复杂...

找人问问吧。

PR

小问题,全程线上修改...

一键搞定!

请选择提交类型

问题类型
规范和低错类

- 规范和低错类:

- 错别字或拼写错误,标点符号使用错误、公式错误或显示异常。

- 链接错误、空单元格、格式错误。

- 英文中包含中文字符。

- 界面和描述不一致,但不影响操作。

- 表述不通顺,但不影响理解。

- 版本号不匹配:如软件包名称、界面版本号。

易用性

- 易用性:

- 关键步骤错误或缺失,无法指导用户完成任务。

- 缺少主要功能描述、关键词解释、必要前提条件、注意事项等。

- 描述内容存在歧义指代不明、上下文矛盾。

- 逻辑不清晰,该分类、分项、分步骤的没有给出。

正确性

- 正确性:

- 技术原理、功能、支持平台、参数类型、异常报错等描述和软件实现不一致。

- 原理图、架构图等存在错误。

- 命令、命令参数等错误。

- 代码片段错误。

- 命令无法完成对应功能。

- 界面错误,无法指导操作。

- 代码样例运行报错、运行结果不符。

风险提示

- 风险提示:

- 对重要数据或系统存在风险的操作,缺少安全提示。

内容合规

- 内容合规:

- 违反法律法规,涉及政治、领土主权等敏感词。

- 内容侵权。

请选择问题类型

问题描述

点击输入详细问题描述,以帮助我们快速定位问题。

比较与torch.nn.BatchNorm1d的差异

查看源文件

torch.nn.BatchNorm1d

class torch.nn.BatchNorm1d(
    num_features,
    eps=1e-05,
    momentum=0.1,
    affine=True,
    track_running_stats=True
)(input) -> Tensor

更多内容详见torch.nn.BatchNorm1d

mindspore.nn.BatchNorm1d

class mindspore.nn.BatchNorm1d(
    num_features,
    eps=1e-5,
    momentum=0.9,
    affine=True,
    gamma_init='ones',
    beta_init='zeros',
    moving_mean_init='zeros',
    moving_var_init='ones',
    use_batch_statistics=None,
    data_format='NCHW'
)(x) -> Tensor

更多内容详见mindspore.nn.BatchNorm1d

差异对比

PyTorch:对输入的二维或三维数据进行批归一化。

MindSpore:MindSpore此API实现功能与PyTorch基本一致。MindSpore中momentum参数默认值为0.9,与PyTorch的momentum转换关系为1-momentum,默认值行为与PyTorch相同;训练以及推理时的参数更新策略和PyTorch有所不同。

分类

子类

PyTorch

MindSpore

差异

参数

参数1

num_features

num_features

-

参数2

eps

eps

-

参数3

momentum

momentum

功能一致,但PyTorch中的默认值是0.1,MindSpore中是0.9,与PyTorch的momentum转换关系为1-momentum,默认值行为与PyTorch相同

参数4

affine

affine

-

参数5

track_running_stats

use_batch_statistics

功能一致,不同值对应的默认方式不同

参数6

-

gamma_init

PyTorch无此参数,MindSpore可以初始化参数gamma的值

参数7

-

beta_init

PyTorch无此参数,MindSpore可以初始化参数beta的值

参数8

-

moving_mean_init

PyTorch无此参数,MindSpore可以初始化参数moving_mean的值

参数9

-

moving_var_init

PyTorch无此参数,MindSpore可以初始化参数moving_var的值

参数10

-

data_format

PyTorch无此参数

输入

单输入

input

x

接口输入,功能一致,仅参数名不同

详细区别如下: BatchNorm是CV领域比较特殊的正则化方法,它在训练和推理的过程中有着不同计算流程,通常由算子属性控制。MindSpore和PyTorch的BatchNorm在这一点上使用了两种不同的参数组。

  • 差异一

    torch.nn.BatchNorm1d 在不同参数下的状态

    training

    track_running_stats

    状态

    True

    True

    期望中训练的状态,running_mean 和 running_var 会跟踪整个训练过程中 batch 的统计特性,而每组输入数据用当前 batch 的 mean 和 var 统计特性做归一化,然后再更新 running_mean 和 running_var。

    True

    False

    每组输入数据会根据当前 batch 的统计特性做归一化,但不会有 running_mean 和 running_var 参数了。

    False

    True

    期望中推理的状态,BN 使用 running_mean 和 running_var 做归一化,并且不会对其进行更新。

    False

    False

    效果同第二点,只不过处于推理状态,不会学习 weight 和 bias 两个参数。一般不采用该状态。

    mindspore.nn.BatchNorm1d 在不同参数下的状态

    use_batch_statistics

    状态

    True

    期望中训练的状态,moving_mean 和 moving_var 会跟踪整个训练过程中 batch 的统计特性,而每组输入数据用当前 batch 的 mean 和 var 统计特性做归一化,然后再更新 moving_mean 和 moving_var。

    Fasle

    期望中推理的状态,BN 使用 moving_mean 和 moving_var 做归一化,并且不会对其进行更新。

    None

    自动设置 use_batch_statistics。如果是训练,use_batch_statistics=True,如果是推理,use_batch_statistics=False。

    通过比较可以发现,mindspore.nn.BatchNorm1d 相比 torch.nn.BatchNorm1d,少了两种冗余的状态,仅保留了最常用的训练和推理两种状态。

  • 差异二

    在PyTorch中,网络默认是训练模式,而MindSpore默认是推理模式(is_training为False),需要通过 net.set_train() 方法将网络调整为训练模式,此时才会在训练期间去对参数 meanvariance 进行计算,否则,在推理模式下,参数会尝试从checkpoint去加载。

  • 差异三

    BatchNorm系列算子的momentum参数在MindSpore和PyTorch表示的意义相反,关系为: $momentumpytorch=1momentummindspore$

代码示例

两API实现功能一致,用法相同。

# PyTorch
import torch
import numpy as np
from torch import nn, tensor

net = nn.BatchNorm1d(4, affine=False, momentum=0.1)
x = tensor(np.array([[0.7, 0.5, 0.5, 0.6], [0.5, 0.4, 0.6, 0.9]]).astype(np.float32))
output = net(x)
print(output.detach().numpy())
# [[ 0.9995001   0.9980063  -0.998006   -0.99977785]
#  [-0.9995007  -0.9980057   0.998006    0.99977785]]

# MindSpore
import numpy as np
import mindspore.nn as nn
from mindspore import Tensor

net = nn.BatchNorm1d(num_features=4, affine=False, momentum=0.9)
net.set_train()
# BatchNorm1d<num_features=4, eps=1e-05, momentum=0.9, gamma=Parameter (name=gamma, shape=(4,), dtype=Float32, requires_grad=False), beta=Parameter (name=beta, shape=(4,), dtype=Float32, requires_grad=False), moving_mean=Parameter (name=mean, shape=(4,), dtype=Float32, requires_grad=False), moving_variance=Parameter (name=variance, shape=(4,),dtype=Float32, requires_grad=False)>

x = Tensor(np.array([[0.7, 0.5, 0.5, 0.6], [0.5, 0.4, 0.6, 0.9]]).astype(np.float32))
output = net(x)
print(output.asnumpy())
# [[ 0.9995001  0.9980063 -0.998006  -0.9997778]
#  [-0.9995007 -0.9980057  0.998006   0.9997778]]