模型相关
Q: 网络运行时报错“Out of Memory”(OOM
),如何处理?
A: 首先上述报错指的是设备内存不足,导致这一报错的原因可能有多种,建议进行如下几方面的排查:
使用命令
npu-smi info
,确认卡是否独占状态。建议运行网络时,使用对应网络默认
yaml
配置。网络对应
yaml
配置文件中适当增大max_device_memory
的值,注意需要给卡间通信预留部分内存,可以渐进性增大进行尝试。调整混合并行策略,适当增大流水线并行(pp)和模型并行(mp),并相应减小数据并行(dp),保持
dp * mp * pp = device_num
,有必要时增加NPU数量。尝试调小批次大小或序列长度
打开选择重计算或完全重计算,打开优化器并行。
如问题仍需进一步排查,欢迎提issue反馈。