mindearth.data.Dataset

class mindearth.data.Dataset(dataset_generator, distribute=False, num_workers=1, shuffle=True)[源代码]

创建训练，验证和测试的数据集，并且输出mindspore.dataset.GeneratorDataset类的实例。

参数：

dataset_generator (Data) - 气象数据的数据生成器。
distribute (bool, 可选) - 是否对数据集执行分布式处理。默认值： False。
num_workers (int, 可选) - 并行处理数据集的工作线程（线程）数。默认值： 1。
shuffle (bool, 可选) - 并是否对数据集执行shuffle。需要随机可访问的输入。默认值： True，表中显示的预期顺序。

支持平台：

Ascend GPU

样例：

>>> from mindearth.data import Era5Data, Dataset
>>> data_params = {
...     'name': 'era5',
...     'root_dir': './dataset',
...     'feature_dims': 69,
...     't_in': 1,
...     't_out_train': 1,
...     't_out_valid': 20,
...     't_out_test': 20,
...     'valid_interval': 1,
...     'test_interval': 1,
...     'train_interval': 1,
...     'pred_lead_time': 6,
...     'data_frequency': 6,
...     'train_period': [2015, 2015],
...     'valid_period': [2016, 2016],
...     'test_period': [2017, 2017],
...     'patch': True,
...     'patch_size': 8,
...     'batch_size': 8,
...     'num_workers': 1,
...     'grid_resolution': 1.4,
...     'h_size': 128,
...     'w_size': 256
... }
>>> dataset_generator = Era5Data(data_params)
>>> dataset = Dataset(dataset_generator)
>>> train_dataset = dataset.create_dataset(1)

create_dataset(batch_size)[源代码]

创建数据集。

参数：

batch_size (int, 可选) - 每个批处理创建的行数，int值。

返回：

BatchDataset，批处理之后的数据集。