mindspore.mint.nn.functional.conv3d

mindspore.mint.nn.functional.conv3d(input, weight, bias=None, stride=1, padding=0, dilation=1, groups=1) → Tensor[源代码]

对输入Tensor计算三维卷积。通常，输入Tensor的shape为 $(N, C_{i n}, D_{i n}, H_{i n}, W_{i n})$ 或 $(C_{i n}, D_{i n}, H_{i n}, W_{i n})$ ，其中 $N$ 为batch size， $C$ 为通道数， $D, H, W$ 分别为特征图的深度、高度和宽度。

根据以下公式计算输出：

out (N_{i}, C_{{out}_{j}}) = bias (C_{{out}_{j}}) + \sum_{k = 0}^{C_{i n} - 1} ccor (weight (C_{{out}_{j}}, k), X (N_{i}, k))

其中， $b i a s$ 为输出偏置， $c c o r$ 为 cross-correlation 操作， $w e i g h t$ 为卷积核的值， $X$ 为输入的特征图。

以下是索引的含义：

$i$ 对应batch数，其范围为 $[0, N - 1]$ ，其中 $N$ 为输入batch。
$j$ 对应输出通道，其范围为 $[0, C_{o u t} - 1]$ ，其中 $C_{o u t}$ 为输出通道数，该值也等于卷积核的个数。
$k$ 对应输入通道数，其范围为 $[0, C_{i n} - 1]$ ，其中 $C_{i n}$ 为输入通道数，该值也等于卷积核的通道数。

因此，上面的公式中， $b i a s (C_{{out}_{j}})$ 为第 $j$ 个输出通道的偏置， $w e i g h t (C_{{out}_{j}}, k)$ 表示第 $j$ 个卷积核在第 $k$ 个输入通道的卷积核切片， $X (N_{i}, k)$ 为特征图第 $i$ 个batch第 $k$ 个输入通道的切片。

卷积核shape为 $(k d, k h, k w)$ ，其中 $k d$ 、 $k h$ 和 $k w$ 分别是卷积核的深度、高度和宽度。若考虑到输入输出通道以及 groups ，则完整卷积核的shape为 $(C_{o u t}, C_{i n} / groups, k d, k h, k w)$ ，其中 groups 是分组卷积时在通道上分割输入 x 的组数。

想更深入了解卷积层，请参考论文 Gradient Based Learning Applied to Document Recognition 。

以下罗列参数的一些限制条件。

input – conv3d的输入. 输入的每个维度大小必须在[1, int32_max]范围内。
weight – shape为 $(C_{o u t}, C_{i n} / g r o u p s, k d, k h, k w)$ 的滤波器。 $k h$ 和 $k w$ 的值在 [1, 511] 范围内。其余值在 [1, int32_max] 范围内。并且 $k h * k w * k 0$ 必须小于 65536（其中 k0 为 16。如果数据类型是 float32，则 k0 为 8）。
bias – 形状为 $(C_{o u t})$ 的偏置张量。其形状必须与权重的第一维相等。
stride – 内核移动的步幅。它可以是一个整数或一个元组（表示为 $(s t r i d e_{d}, s t r i d e_{h}, s t r i d e_{w})$ ）。其中，stride_h 和 stride_w 的范围是 [1, 63]，stride_d 的范围是 [1, 255]。
padding – 如果 padding 是一个整数，则其范围为 [0, 255]。
dilation – 该值的范围是 [1, 255]。
groups – 该值的范围是 [1, 65535]。
$C_{i n} % groups == 0 and C_{o u t} % groups == 0$ 。
$w e i g h t [1] == C_{i n} / g r o u p s$ 。
$H_{i n} + P a d U p + P a d D o w n >= (k h - 1) * D i l a t i o n H + 1$ 。
$W_{i n} + P a d L e f t + P a d R i g h t >= (k w - 1) * D i l a t i o n W + 1$ 。
$D_{i n} + P a d F r o n t + P a d B a c k >= (k d - 1) * D i l a t i o n D + 1$ 。
$H_{o u t} = (H_{i n} + P a d U p + P a d D o w n - ((k h - 1) * D i l a t i o n H + 1)) / S t r i d e H + 1$ 。
$W_{o u t} = (W_{i n} + P a d L e f t + P a d R i g h t - ((k w - 1) * D i l a t i o n W + 1)) / S t r i d e W + 1$ 。
$D_{o u t} = (D_{i n} + P a d F r o n t + P a d B a c k - ((k d - 1) * D i l a t i o n D + 1)) / S t r i d e D + 1$ 。
$(D_{i n} + P a d F r o n t + P a d B a c k - ((k d - 1) * D i l a t i o n D + 1)) % S t r i d e D <= P a d B a c k$ 。
$(H_{i n} + P a d U p + P a d D o w n - ((k h - 1) * D i l a t i o n h + 1)) % S t r i d e H <= P a d D o w n$ 。
$s t r i d e_{d} <= k e r n e l_{d}$ 。
$P a d U p < k h$ 且 $P a d D o w n < k h$ 。当 padding = 'valid' 时， PadUp 和 PadDown 取值是0。当 padding = 'same' 时，对于high维度的PadUp能通过 $f l o o r (((H_{o u t} - 1) * s t r i d e H + (k h - 1) * D i l a t i o n H + 1 - H_{i n}) / 2)$ 计算得到。用类似的方法能计算得到关于depth和width维度的padding值。且depth和width维度也有相同的约束条件。
$((k h - 1) * D i l a t i o n H - P a d U p)$ 取值区间为[0, 255]。深度和宽度维度具有相同的约束。
如果 padding 为 'same'， stride 必须为 1。

警告

仅支持 Atlas A2 训练系列产品。

参数：

input (Tensor) - shape为 $(N, C_{i n}, D_{i n}, H_{i n}, W_{i n})$ 的Tensor。
weight (Tensor) - shape为 $(C_{o u t}, C_{i n} / groups, k d, k h, k w)$ ，则卷积核的大小为 $(k d, k h, k w)$ 。
bias (Tensor，可选) - 偏置Tensor，shape为 $(C_{o u t})$ 的Tensor。如果 bias 是None，将不会添加偏置。默认值： None 。
stride (Union(int, tuple[int], list[int])，可选) - 卷积核移动的步长，可以为单个int或三个int组成的tuple。一个int表示在深度、高度和宽度方向的移动步长均为该值。三个int组成的tuple分别表示在深度、高度和宽度方向的移动步长。默认值： 1 。
padding (Union(int, tuple[int], list[int], str)，可选) - 输入 x 两侧的隐式填充。可以是字符串、一个整数或包含3个整数的元组/列表。如果 padding 是一个字符串，则可选值为 same 、 valid 。
- "same"：采用完成方式。输出的高度和宽度将等于输入 x 除以步幅。填充将尽可能在顶部和底部、左侧和右侧均匀计算。否则，最后一个额外的填充将从底部和右侧计算。如果设置了此模式，则 stride 必须为1。
- "valid"：采用丢弃的方式。输出的可能最大高度和宽度将在没有填充的情况下返回。多余的像素将被丢弃。
如果 padding 是一个整数，则top、bottom、left和right的padding是相同的，等于padding。如果 padding 是一个包含3个整数的元组/列表，则head、tail、top、bottom、left和right的填充分别等于pad[0]、pad[0]、pad[1]、pad[1]、pad[2]和pad[2]。默认值： 0 。
dilation (Union[int, tuple[int], list[int]]，可选) - 控制内核点之间的空间。默认值： 1 。
groups (int，可选) - 将 input 拆分的组数。默认值： 1 。

返回：

Tensor，dtype与 input 相同，shape为 $(N, C_{o u t}, D_{o u t}, H_{o u t}, W_{o u t})$ 或 $(C_{o u t}, D_{o u t}, H_{o u t}, W_{o u t})$ 。

异常：

TypeError - stride 、 padding 或 dilation 既不是int也不是tuple。
TypeError - groups 不是int。
TypeError - bias 不是Tensor。

支持平台：

Ascend

样例：

>>> import mindspore
>>> import numpy as np
>>> from mindspore import mint
>>> x = mindspore.Tensor(np.random.randn(12, 1, 60, 50, 8), mindspore.float16)
>>> w = mindspore.Tensor(np.random.randn(26, 1, 2, 4, 4), mindspore.float16)
>>> out = mint.nn.functional.conv3d(x, w)
>>> print(out.shape)
(12, 26, 59, 47, 5)