mindspore.dataset.WeightedRandomSampler

class mindspore.dataset.WeightedRandomSampler(weights, num_samples=None, replacement=True)[源代码]

给定样本的权重列表,根据权重决定样本的采样概率,随机采样[0,len(weights) - 1]中的样本。

参数:
  • weights (list[float, int]) - 权重序列,总和不一定为1。

  • num_samples (int, 可选) - 获取的样本数,可用于部分获取采样得到的样本。默认值: None ,获取采样到的所有样本。

  • replacement (bool) - 是否将样本ID放回下一次采样。默认值: True ,有放回采样。

异常:
  • TypeError - weights 元素的类型不是数值类型。

  • TypeError - num_samples 的类型不是int。

  • TypeError - replacement 的类型不是bool。

  • RuntimeError - weights 为空或全为零。

  • ValueError - num_samples 为负值。

样例:

>>> import mindspore.dataset as ds
>>> weights = [0.9, 0.01, 0.4, 0.8, 0.1, 0.1, 0.3]
>>>
>>> # creates a WeightedRandomSampler that will sample 4 elements without replacement
>>> sampler = ds.WeightedRandomSampler(weights, 4)
>>> dataset = ds.ImageFolderDataset(image_folder_dataset_dir,
...                                 num_parallel_workers=8,
...                                 sampler=sampler)
add_child(sampler)

为给定采样器添加子采样器。子采样器接收父采样器输出数据作为输入,并应用其采样逻辑返回新的采样结果。

参数:

样例:

>>> import mindspore.dataset as ds
>>> sampler = ds.SequentialSampler(start_index=0, num_samples=3)
>>> sampler.add_child(ds.RandomSampler(num_samples=4))
>>> dataset = ds.Cifar10Dataset(cifar10_dataset_dir, sampler=sampler)
get_child()

获取给定采样器的子采样器。

返回:

Sampler,给定采样器的子采样器。

样例:

>>> import mindspore.dataset as ds
>>> sampler = ds.SequentialSampler(start_index=0, num_samples=3)
>>> sampler.add_child(ds.RandomSampler(num_samples=2))
>>> child_sampler = sampler.get_child()
get_num_samples()

获取当前采样器实例的 num_samples 参数值。此参数在定义Sampler时,可以选择性传入(默认为 None )。此方法将返回num_samples的值。如果当前采样器有子采样器,会继续访问子采样器,并根据一定的规则处理获取值。

下表显示了各种可能的组合,以及最终返回的结果。

子采样器

num_samples

child_samples

结果

T

x

y

min(x, y)

T

x

None

x

T

None

y

y

T

None

None

None

None

x

n/a

x

None

None

n/a

None

返回:

int,样本数,可为None。

样例:

>>> import mindspore.dataset as ds
>>> sampler = ds.SequentialSampler(start_index=0, num_samples=3)
>>> num_samplers = sampler.get_num_samples()