基准性能¶
本文介绍MindSpore的基准性能。MindSpore网络定义可参考ModelZoo。
训练性能¶
ResNet¶
Network | Network Type | Dataset | MindSpore Version | Resource | Precision | Batch Size | Throughput | Speedup |
---|---|---|---|---|---|---|---|---|
ResNet-50 v1.5 | CNN | ImageNet2012 | 0.5.0-beta | Ascend: 1 * Ascend 910 CPU:24 Cores | Mixed | 256 | 2115 images/sec | - |
Ascend: 8 * Ascend 910 CPU:192 Cores | Mixed | 256 | 16600 images/sec | 0.98 | ||||
Ascend: 16 * Ascend 910 CPU:384 Cores | Mixed | 256 | 32768 images/sec | 0.96 |
以上数据基于华为云AI开发平台ModelArts测试获得,是训练过程整体下沉至Ascend 910 AI处理器执行所得的平均性能。
业界其他开源框架数据可参考:ResNet-50 v1.5 for TensorFlow。
BERT¶
Network | Network Type | Dataset | MindSpore Version | Resource | Precision | Batch Size | Throughput | Speedup |
---|---|---|---|---|---|---|---|---|
BERT-Large | Attention | zhwiki | 0.5.0-beta | Ascend: 1 * Ascend 910 CPU:24 Cores | Mixed | 96 | 269 sentences/sec | - |
Ascend: 8 * Ascend 910 CPU:192 Cores | Mixed | 96 | 2069 sentences/sec | 0.96 |
以上数据基于华为云AI开发平台ModelArts测试获得,其中网络包含24个隐藏层,句长为128个token,字典表包含21128个token。
业界其他开源框架数据可参考:BERT For TensorFlow。
Wide & Deep (数据并行)¶
Network | Network Type | Dataset | MindSpore Version | Resource | Precision | Batch Size | Throughput | Speedup |
---|---|---|---|---|---|---|---|---|
Wide & Deep | Recommend | Criteo | 0.6.0-beta | Ascend: 1 * Ascend 910 CPU:24 Cores | Mixed | 16000 | 796892 samples/sec | - |
Ascend: 8 * Ascend 910 CPU:192 Cores | Mixed | 16000*8 | 4872849 samples/sec | 0.76 |
以上数据基于Atlas 800测试获得,且网络模型为数据并行。
业界其他开源框架数据可参考:Wide & Deep For TensorFlow。
Wide & Deep (Host-Device混合计算模型并行)¶
Network | Network Type | Dataset | MindSpore Version | Resource | Precision | Batch Size | Throughput | Speedup |
---|---|---|---|---|---|---|---|---|
Wide & Deep | Recommend | Criteo | 0.6.0-beta | Ascend: 1 * Ascend 910 CPU:24 Cores | Mixed | 8000 | 68715 samples/sec | - |
Ascend: 8 * Ascend 910 CPU:192 Cores | Mixed | 8000*8 | 283830 samples/sec | 0.51 | ||||
Ascend: 16 * Ascend 910 CPU:384 Cores | Mixed | 8000*16 | 377848 samples/sec | 0.34 | ||||
Ascend: 32 * Ascend 910 CPU:768 Cores | Mixed | 8000*32 | 433423 samples/sec | 0.20 |
以上数据基于Atlas 800测试获得,且网络模型为模型并行。
业界其他开源框架数据可参考:Wide & Deep For TensorFlow。