mindearth.data.Dataset

查看源文件
class mindearth.data.Dataset(dataset_generator, distribute=False, num_workers=1, shuffle=True)[源代码]

创建训练,验证和测试的数据集,并且输出mindspore.dataset.GeneratorDataset类的实例。

参数:
  • dataset_generator (Data) - 气象数据的数据生成器。

  • distribute (bool, 可选) - 是否对数据集执行分布式处理。默认值: False

  • num_workers (int, 可选) - 并行处理数据集的工作线程(线程)数。默认值: 1

  • shuffle (bool, 可选) - 并是否对数据集执行shuffle。需要随机可访问的输入。默认值: True,表中显示的预期顺序。

支持平台:

Ascend GPU

样例:

>>> from mindearth.data import Era5Data, Dataset
>>> data_params = {
...     'name': 'era5',
...     'root_dir': './dataset',
...     'feature_dims': 69,
...     't_in': 1,
...     't_out_train': 1,
...     't_out_valid': 20,
...     't_out_test': 20,
...     'valid_interval': 1,
...     'test_interval': 1,
...     'train_interval': 1,
...     'pred_lead_time': 6,
...     'data_frequency': 6,
...     'train_period': [2015, 2015],
...     'valid_period': [2016, 2016],
...     'test_period': [2017, 2017],
...     'patch': True,
...     'patch_size': 8,
...     'batch_size': 8,
...     'num_workers': 1,
...     'grid_resolution': 1.4,
...     'h_size': 128,
...     'w_size': 256
... }
>>> dataset_generator = Era5Data(data_params)
>>> dataset = Dataset(dataset_generator)
>>> train_dataset = dataset.create_dataset(1)
create_dataset(batch_size)[源代码]

创建数据集。

参数:
  • batch_size (int, 可选) - 每个批处理创建的行数,int值。

返回:

BatchDataset,批处理之后的数据集。