mindspore.dataset.vision.RandomResizedCropWithBBox
- class mindspore.dataset.vision.RandomResizedCropWithBBox(size, scale=(0.08, 1.0), ratio=(3.0 / 4.0, 4.0 / 3.0), interpolation=Inter.BILINEAR, max_attempts=10)[源代码]
对输入图像进行随机裁剪且随机调整纵横比,并将处理后的图像调整为指定的尺寸大小,并相应地调整边界框。
- 参数:
size (Union[int, Sequence[int]]) - 图像的输出尺寸大小。若输入整型,则放缩至(size, size)大小;若输入2元素序列,则以2个元素分别为高和宽放缩至(高度, 宽度)大小。
scale (Union[list, tuple], 可选) - 裁剪子图的尺寸大小相对原图比例的随机选取范围,需要在[min, max)区间。默认值:
(0.08, 1.0)
。ratio (Union[list, tuple], 可选) - 裁剪子图的宽高比的随机选取范围,需要在[min, max)区间。默认值:
(3. / 4., 4. / 3.)
。interpolation (
Inter
, 可选) - 图像插值方法。可选值详见mindspore.dataset.vision.Inter
。 默认值:Inter.BILINEAR
。max_attempts (int, 可选) - 生成随机裁剪位置的最大尝试次数,超过该次数时将使用中心裁剪。默认值:
10
。
- 异常:
TypeError - 当 size 的类型不为int或Sequence[int]。
TypeError - 当 scale 的类型不为tuple或list。
TypeError - 当 ratio 的类型不为tuple或list。
TypeError - 当 interpolation 的类型不为
mindspore.dataset.vision.Inter
。TypeError - 当 max_attempts 的类型不为int。
ValueError - 当 size 不为正数。
ValueError - 当 scale 为负数。
ValueError - 当 ratio 为负数。
ValueError - 当 max_attempts 不为正数。
RuntimeError 当输入图像的shape不为<H, W>或<H, W, C>。
- 支持平台:
CPU
样例:
>>> import numpy as np >>> import mindspore.dataset as ds >>> import mindspore.dataset.vision as vision >>> from mindspore.dataset.vision import Inter >>> >>> # Use the transform in dataset pipeline mode >>> data = np.random.randint(0, 255, size=(100, 100, 3)).astype(np.float32) >>> numpy_slices_dataset = ds.NumpySlicesDataset(data, ["image"]) >>> func = lambda img: (data, np.array([[0, 0, data.shape[1], data.shape[0]]]).astype(np.float32)) >>> numpy_slices_dataset = numpy_slices_dataset.map(operations=[func], ... input_columns=["image"], ... output_columns=["image", "bbox"]) >>> bbox_op = vision.RandomResizedCropWithBBox(size=50, interpolation=Inter.NEAREST) >>> transforms_list = [bbox_op] >>> numpy_slices_dataset = numpy_slices_dataset.map(operations=transforms_list, ... input_columns=["image", "bbox"]) >>> for item in numpy_slices_dataset.create_dict_iterator(num_epochs=1, output_numpy=True): ... print(item["image"].shape, item["image"].dtype) ... print(item["bbox"].shape, item["bbox"].dtype) ... break (50, 50, 3) float32 (1, 4) float32 >>> >>> # Use the transform in eager mode >>> data = np.random.randint(0, 255, size=(100, 100, 3)).astype(np.float32) >>> func = lambda img: (data, np.array([[0, 0, data.shape[1], data.shape[0]]]).astype(data.dtype)) >>> func_data, func_bboxes = func(data) >>> output = vision.RandomResizedCropWithBBox((16, 64), (0.5, 0.5), (0.5, 0.5))(func_data, func_bboxes) >>> print(output[0].shape, output[0].dtype) (16, 64, 3) float32 >>> print(output[1].shape, output[1].dtype) (1, 4) float32
- 教程样例: