分布式配置

Linux Windows Ascend GPU CPU 环境准备 初级 中级

Q: 进行HCCL分布式训练出错：Init plugin so failed, ret = 1343225860？

A: 初始化HCCL失败了，通常由于rank json没写对，可以用mindspore/model_zoo/utils/hccl_tools下面的工具生成一个试试。或者导入环境变量export ASCEND_SLOG_PRINT_TO_STDOUT=1打开HCCL的日志打印，然后检查日志信息。

Q: MindSpore执行GPU分布式训练报错如下，如何解决:

Loading libgpu_collective.so failed. Many reasons could cause this:
libgpu_collective.so is not installed.
nccl is not installed or found.
mpi is not installed or found

A: 此问题为MindSpore动态加载集合通信库失败，可能原因如下:

执行环境未安装分布式训练依赖的OpenMPI以及NCCL。
NCCL版本未更新至v2.7.6: MindSpore v1.1.0新增GPU P2P通信算子，该特性依赖于NCCL v2.7.6，若环境使用的NCCL未升级为此版本，则会引起加载失败错误。

Q: 基于Ascend环境需要配置通信配置文件，应该如何配置？

A: 请参考mindspore教程的基于Ascend分布式训练的配置分布式环境变量部分。

Q: 如何进行分布式多机多卡训练？

A: 基于Ascend环境的，请参考mindspore教程的基于Ascend分布式训练的多机多卡训练部分。基于GPU环境的，请参考mindspore教程的基于GPU分布式训练的运行多机脚本部分。