分布式配置
Linux
Windows
Ascend
GPU
CPU
环境准备
初级
中级
Q: 进行HCCL分布式训练出错:Init plugin so failed, ret = 1343225860
?
A: 初始化HCCL失败了,通常由于rank json
没写对,可以用mindspore/model_zoo/utils/hccl_tools
下面的工具生成一个试试。或者导入环境变量export ASCEND_SLOG_PRINT_TO_STDOUT=1
打开HCCL的日志打印,然后检查日志信息。
Q: MindSpore执行GPU分布式训练报错如下,如何解决:
Loading libgpu_collective.so failed. Many reasons could cause this:
1.libgpu_collective.so is not installed.
2.nccl is not installed or found.
3.mpi is not installed or found
A: 此问题为MindSpore动态加载集合通信库失败,可能原因如下:
执行环境未安装分布式训练依赖的OpenMPI以及NCCL。
NCCL版本未更新至
v2.7.6
: MindSporev1.1.0
新增GPU P2P通信算子,该特性依赖于NCCLv2.7.6
,若环境使用的NCCL未升级为此版本,则会引起加载失败错误。
Q: 基于Ascend环境需要配置通信配置文件,应该如何配置?
A: 请参考mindspore教程的基于Ascend分布式训练的配置分布式环境变量部分。
Q: 如何进行分布式多机多卡训练?
A: 基于Ascend环境的,请参考mindspore教程的基于Ascend分布式训练的多机多卡训练 部分。 基于GPU环境的,请参考mindspore教程的基于GPU分布式训练的运行多机脚本 部分。