mindspore.ops.BCEWithLogitsLoss

查看源文件
class mindspore.ops.BCEWithLogitsLoss(reduction='mean')[源代码]

输入经过sigmoid激活函数后作为预测值,BCEWithLogitsLoss 计算预测值和目标值之间的二值交叉熵损失。

将输入 input 设置为 \(X\) ,输入 target 设置为 \(Y\) ,输入 weight 设置为 \(W\) ,输出设置为 \(L\) 。则,

\[\begin{split}\begin{array}{ll} \\ p_{ij} = sigmoid(X_{ij}) = \frac{1}{1 + e^{-X_{ij}}} \\ L_{ij} = -[Y_{ij}log(p_{ij}) + (1 - Y_{ij})log(1 - p_{ij})] \end{array}\end{split}\]

\(i\) 表示 \(i^{th}\) 样例, \(j\) 表示类别。则,

\[\begin{split}\ell(x, y) = \begin{cases} L, & \text{if reduction} = \text{'none';}\\ \operatorname{mean}(L), & \text{if reduction} = \text{'mean';}\\ \operatorname{sum}(L), & \text{if reduction} = \text{'sum'.} \end{cases}\end{split}\]

\(\ell\) 表示计算损失的方法。有三种方法:第一种方法是直接提供损失值,第二种方法是计算所有损失的平均值,第三种方法是计算所有损失的总和。

该算子会将输出乘以相应的权重。 weight 表示一个batch中的每条数据分配不同的权重, pos_weight 为每个类别的正例子添加相应的权重。

此外,它可以通过向正例添加权重来权衡召回率和精度。 在多标签分类的情况下,损失可以描述为:

\[\begin{split}\begin{array}{ll} \\ p_{ij,c} = sigmoid(X_{ij,c}) = \frac{1}{1 + e^{-X_{ij,c}}} \\ L_{ij,c} = -[P_{c}Y_{ij,c} * log(p_{ij,c}) + (1 - Y_{ij,c})log(1 - p_{ij,c})] \end{array}\end{split}\]

其中 c 是类别数目(c>1 表示多标签二元分类,c=1 表示单标签二元分类),n 是批次中样本的数量,\(P_c\) 是 第c类正例的权重。 \(P_c>1\) 增大召回率, \(P_c<1\) 增大精度。

参数:
  • reduction (str,可选) - 指定应用于输出结果的规约计算方式,可选 'none''mean''sum' ,默认值: 'mean'

    • 'none':不应用规约方法。

    • 'mean':计算输出元素的加权平均值。

    • 'sum':计算输出元素的总和。

输入:
  • input (Tensor) - 输入预测值,其shape为 \((N, *)\) ,其中 \(*\) 为任意数量的额外维度。数据类型必须为float16、float32或bfloat16(仅Atlas A2训练系列产品支持)。

  • target (Tensor) - 输入目标值,shape与 input 相同。数据类型为float16、float32或bfloat16(仅Atlas A2训练系列产品支持)。

  • weight (Tensor) - 指定每个批次二值交叉熵的权重。支持广播,使其shape与 input 的shape保持一致。数据类型必须为float16、float32或bfloat16(仅Atlas A2训练系列产品支持)。

  • pos_weight (Tensor) - 指定正类的权重。是一个长度等于分类数的向量。支持广播,使其shape与 input 的shape保持一致。数据类型必须为float16、float32或bfloat16(仅Atlas A2训练系列产品支持)。

输出:

Tensor或Scalar,如果 reduction'none' ,则为shape和数据类型与输入 input 相同的Tensor。否则,输出为Scalar。

异常:
  • TypeError - 所有的输入都不是Tensor。

  • TypeError - 所有输入的数据类型不是float16、float32或bfloat16。

  • TypeError - reduction 的数据类型不是string。

  • ValueError - weightpos_weight 不能广播到shape为 input 的Tensor。

  • ValueError - reduction 不为 'none''mean''sum'

支持平台:

Ascend GPU CPU

样例:

>>> import mindspore
>>> import numpy as np
>>> from mindspore import Tensor, ops
>>> input = Tensor(np.array([[-0.8, 1.2, 0.7], [-0.1, -0.4, 0.7]]), mindspore.float32)
>>> target = Tensor(np.array([[0.3, 0.8, 1.2], [-0.6, 0.1, 2.2]]), mindspore.float32)
>>> weight = Tensor(np.array([1.0, 1.0, 1.0]), mindspore.float32)
>>> pos_weight = Tensor(np.array([1.0, 1.0, 1.0]), mindspore.float32)
>>> loss = ops.BCEWithLogitsLoss()
>>> output = loss(input, target, weight, pos_weight)
>>> print(output)
0.3463612