性能调试(GPU)
Linux
GPU
模型调优
中级
高级
概述
将训练过程中的算子耗时等信息记录到文件中,通过可视化界面供用户查看分析,帮助用户更高效地调试神经网络性能。
操作流程
操作流程可以参考Ascend 910上profiler的操作:
https://www.mindspore.cn/tutorial/training/zh-CN/r1.1/advanced_use/performance_profiling.html#id3 普通用户默认情况下无权访问目标设备上的NVIDIA GPU性能计数器。如果普通用户需要在训练脚本中使用profiler性能统计能力,则需参考以下网址的说明进行权限配置。
https://developer.nvidia.com/nvidia-development-tools-solutions-err-nvgpuctrperm-cupti
准备训练脚本
为了收集神经网络的性能数据,需要在训练脚本中添加MindSpore Profiler相关接口。
set_context
之后,需要初始化MindSporeProfiler
对象,GPU多卡场景需要在初始化NCCL和set_auto_parallel_context
之后初始化Profiler
对象, GPU场景下初始化Profiler对象时只有output_path参数有效。在训练结束后,调用
Profiler.analyse
停止性能数据收集并生成性能分析结果。
GPU场景下还可以用自定义callback的方式收集性能数据(当前版本,MindData不支持该种方式,此方式下无MindData性能数据生成。),当前版本数据下沉模式不支持callback的方式收集性能数据,示例如下:
class StopAtStep(Callback):
def __init__(self, start_step, stop_step):
super(StopAtStep, self).__init__()
self.start_step = start_step
self.stop_step = stop_step
self.already_analysed = False
def step_begin(self, run_context):
cb_params = run_context.original_args()
step_num = cb_params.cur_step_num
if step_num == self.start_step:
self.profiler = Profiler()
def step_end(self, run_context):
cb_params = run_context.original_args()
step_num = cb_params.cur_step_num
if step_num == self.stop_step and not self.already_analysed:
self.profiler.analyse()
self.already_analysed = True
def end(self, run_context):
if not self.already_analysed:
self.profiler.analyse()
以上代码仅供参考,用户可根据所需场景自由实现。
启动MindInsight
启动命令请参考MindInsight相关命令。
性能分析
用户从训练列表中选择指定的训练,点击性能调试,可以查看该次训练的性能数据(目前GPU场景支持算子耗时统计排名、Timeline以及MindData功能,其他功能敬请期待)。
图1:性能数据总览
图1展示了性能数据总览页面,包含了迭代轨迹(Step Trace)、算子性能、MindData性能和Timeline等组件的数据总体呈现:
算子性能:统计单算子以及各算子类型的执行时间,进行排序展示;总览页中展示了各算子类型平均执行时间占比的饼状图。
Timeline:统计了算子以及CUDA activity,在时间轴排列展示;总览页展示了Timeline中执行情况汇总。
MindData性能:统计训练数据准备阶段各阶段的性能情况;总览页中展示了各阶段性能可能存在瓶颈的step数目。
用户可以点击查看详情链接,进入组件页面进行详细分析。
算子性能分析
使用算子性能分析组件可以对MindSpore运行过程中的各个算子的执行时间进行统计展示。
图2:算子类别统计分析
图2展示了按算子类别进行统计分析的结果,包含以下内容:
可以选择饼图/柱状图展示各算子类别的时间占比,每个算子类别的执行时间会统计属于该类别的算子执行时间总和以及平均执行时间。
统计前20个平均执行时间最长的算子类别。
图2下半部分展示了算子性能统计表,包含以下内容:
选择全部:按单个算子的统计结果进行排序展示,展示维度包括算子位置(Device/Host)、算子类型、算子执行时间、算子全名等;默认按算子平均执行时间排序。
选择分类:按算子类别的统计结果进行排序展示,展示维度包括算子分类名称、算子类别执行时间、执行频次、执行总时间的比例、平均执行时间。点击每个算子类别,可以进一步查看该类别下所有单个算子的统计信息。
搜索:在右侧搜索框中输入字符串,支持对算子名称/类别进行模糊搜索。
图3:内核信息分析
图3展示了CUDA activity信息统计,包含以下内容:
统计图表:展示了各个kernel activity的占比以及前15个算子的耗时信息。
内核信息列表:信息列表展示activity的名称、所属算子名称、执行次数、总时间、平均时间等信息。
搜索:可以通过name(activity名称)以及
op_full_name
(所属算子名称)进程部分匹配的搜索。
Timeline分析
GPU场景下,Timeline分析的使用方法和Ascend场景相同,不同之处是,GPU Timeline展示的是算子信息和CUDA activity的信息。使用方法参考:
MindData性能分析
GPU场景下,MindData性能分析的使用方法和Ascend场景相同,使用方法参考:
注意事项
PyNative模式下暂不支持性能调试。