mindspore.dataset

查看源文件

MindSpore Dataset是MindSpore框架中专门设计的高性能数据引擎模块,致力于为深度学习任务提供高效、灵活且易用的数据加载与预处理解决方案。它支持多种数据格式(如MindRecord、TFRecord等),并内置了丰富的公开数据集接口,帮助用户快速构建数据流水线。 通过 MindSpore Dataset,用户可以轻松实现数据读取、转换、增强等操作,满足图像、文本、音频等多种数据类型的处理需求。

此外,MindSpore Dataset提供了强大的数据变换功能,支持多种数据增强操作(如裁剪、旋转、归一化等),能够有效提升模型的泛化能力。结合MindRecord高效数据存储格式,用户可进一步优化数据读取性能,显著加速大规模数据训练任务。 MindSpore Dataset的设计兼顾了灵活性与性能,支持单机与分布式训练场景,能够无缝集成到 MindSpore 的模型开发与训练流程中,为用户提供从数据预处理到模型训练的全流程高效支持。

  • 数据集读取与加载( mindspore.dataset ), 该模块提供了多种数据加载方式,帮助用户加载数据集到MindSpore中。

  • 数据增强( mindspore.dataset.transforms ), 该模块提供了图像、文本、音频领域的常用数据变换,并支持自定义的数据变换,帮助用户在线完成数据增强。

  • MindRecord数据格式( mindspore.mindrecord ), 该模块提供了一种高效数据格式,帮助用户方便地将数据源转为标准格式的数据文件,并在训练时高速读取。