自定义调试信息

Ascend GPU CPU 模型调优 中级 高级

查看源文件    查看Notebook

概述

本文介绍如何使用MindSpore提供的CallbackmetricsPrint算子、日志打印等自定义能力,帮助用户快速调试训练网络。

Callback介绍

Callback是回调函数的意思,但它其实不是一个函数而是一个类,用户可以使用回调函数来观察训练过程中网络内部的状态和相关信息,或在特定时期执行特定动作。 例如监控loss、保存模型参数、动态调整参数、提前终止训练任务等。

MindSpore的Callback能力

MindSpore提供Callback能力,支持用户在训练/推理的特定阶段,插入自定义的操作。包括:

  • MindSpore框架提供的ModelCheckpointLossMonitorSummaryCollector等Callback函数。

  • MindSpore支持用户自定义Callback。

使用方法:在model.train方法中传入Callback对象,它可以是一个Callback列表,例:

ckpt_cb = ModelCheckpoint()                                                            
loss_cb = LossMonitor()
summary_cb = SummaryCollector(summary_dir='./summary_dir')
model.train(epoch, dataset, callbacks=[ckpt_cb, loss_cb, summary_cb])

ModelCheckpoint可以保存模型参数,以便进行再训练或推理。 LossMonitor可以在日志中输出loss,方便用户查看,同时它还会监控训练过程中的loss值变化情况,当loss值为NanInf时终止训练。 SummaryCollector 可以把训练过程中的信息存储到文件中,以便后续进行查看或可视化展示。 在训练过程中,Callback列表会按照定义的顺序执行Callback函数。因此在定义过程中,需考虑Callback之间的依赖关系。

自定义Callback

用户可以基于Callback基类,根据自身的需求,实现自定义Callback

Callback基类定义如下所示:

class Callback():
    """Callback base class""" 
    def begin(self, run_context):
        """Called once before the network executing."""
        pass

    def epoch_begin(self, run_context):
        """Called before each epoch beginning."""
        pass

    def epoch_end(self, run_context):
        """Called after each epoch finished.""" 
        pass

    def step_begin(self, run_context):
        """Called before each epoch beginning.""" 
        pass

    def step_end(self, run_context):
        """Called after each step finished."""
        pass

    def end(self, run_context):
        """Called once after network training."""
        pass

Callback可以把训练过程中的重要信息记录下来,通过一个字典类型变量cb_params传递给Callback对象, 用户可以在各个自定义的Callback中获取到相关属性,执行自定义操作。也可以自定义其他变量传递给cb_params对象。

cb_params中的主要属性包括:

  • loss_fn:损失函数

  • optimizer:优化器

  • train_dataset:训练的数据集

  • cur_epoch_num:当前的epoch数

  • cur_step_num:当前的step数

  • batch_num:一个epoch中step的数量

用户可以继承Callback基类自定义Callback对象。

下面通过两个例子,进一步了解自定义Callback的用法。

  • 在规定时间内终止训练。

    class StopAtTime(Callback):
        def __init__(self, run_time):
            super(StopAtTime, self).__init__()
            self.run_time = run_time*60
    
        def begin(self, run_context):
            cb_params = run_context.original_args()
            cb_params.init_time = time.time()
    
        def step_end(self, run_context):
            cb_params = run_context.original_args()
            epoch_num = cb_params.cur_epoch_num
            step_num = cb_params.cur_step_num
            loss = cb_params.net_outputs
        cur_time = time.time()
        if (cur_time - cb_params.init_time) > self.run_time:
                print("epoch: ", epoch_num, " step: ", step_num, " loss: ", loss)
                run_context.request_stop()
    
    stop_cb = StopAtTime(run_time=10)
    model.train(100, dataset, callbacks=stop_cb)
    

    输出:

    epoch: 20 step: 32 loss: 2.298344373703003
    

    实现逻辑为:通过run_context.original_args方法可以获取到cb_params字典,字典里会包含前文描述的主要属性信息。 同时可以对字典内的值进行修改和添加,上述用例中,在begin中定义一个init_time对象传递给cb_params字典。 在每次step_end会做出判断,当训练时间大于设置的时间阈值时,会向run_context传递终止训练的信号,提前终止训练,并打印当前的epochsteploss的值。

  • 保存训练过程中精度最高的checkpoint文件。

    from mindspore.train.serialization import _exec_save_checkpoint
    
    class SaveCallback(Callback):
        def __init__(self, model, eval_dataset):
            super(SaveCallback, self).__init__()
            self.model = model
            self.eval_dataset = eval_dataset
            self.acc = 0.5
    
        def step_end(self, run_context):
            cb_params = run_context.original_args()
            epoch_num = cb_params.cur_epoch_num
    
            result = self.model.eval(self.dataset)
            if result['acc'] > self.acc:
                self.acc = result['acc']
                file_name = str(self.acc) + ".ckpt"
                _exec_save_checkpoint(train_network=cb_params.train_network, ckpt_file_name=file_name)
                print("Save the maximum accuracy checkpoint,the accuracy is", self.acc)
    
    
    network = Lenet()
    loss = nn.SoftmaxCrossEntryWithLogits()
    oprimizer = nn.Momentum()
    model = Model(network, loss_fn=loss, optimizer=optimizer, metrics={"accuracy"})
    model.train(epoch_size, train_dataset=ds_train, callback=SaveCallback(model, ds_eval))
    

    具体实现逻辑为:定义一个callback对象,初始化对象接收model对象和ds_eval(验证数据集)。在step_end阶段验证模型的精度,当精度为当前最高时,手动触发保存checkpoint方法,保存当前的参数。

MindSpore metrics功能介绍

当训练结束后,可以使用metrics评估训练结果的好坏。

MindSpore提供了多种metrics评估指标,如:accuracylossprecisionrecallF1

用户可以定义一个metrics字典对象,里面包含多种指标,传递给model.eval接口用来验证训练精度。

metrics = {
    'accuracy': nn.Accuracy(),
    'loss': nn.Loss(),
    'precision': nn.Precision(),
    'recall': nn.Recall(),
    'f1_score': nn.F1()
}
net = ResNet()
loss = CrossEntropyLoss()
opt = Momentum()
model = Model(net, loss_fn=loss, optimizer=opt, metrics=metrics, callbacks=TimeMonitor())
ds_eval = create_dataset()
output = model.eval(ds_eval)

model.eval方法会返回一个字典,里面是传入metrics的指标和结果。

在eval过程中也可以使用callback功能,用户可以调用相关API或自定义callback方法实现想要的功能。

用户也可以定义自己的metrics类,通过继承Metric基类,并重写clearupdateeval三个方法即可实现。

accuracy算子举例说明其内部实现原理:

accuracy继承了EvaluationBase基类,重写了上述三个方法。 clear方法会把类中相关计算参数初始化。 update方法接受预测值和标签值,更新accuracy内部变量。 eval方法会计算相关指标,返回计算结果。 调用accuracyeval方法,即可得到计算结果。

通过如下代码可以更清楚了解到accuracy是如何运行的:

x = Tensor(np.array([[0.2, 0.5], [0.3, 0.1], [0.9, 0.6]]))
y = Tensor(np.array([1, 0, 1]))
metric = Accuracy()
metric.clear()
metric.update(x, y)
accuracy = metric.eval()
print('Accuracy is ', accuracy)

输出:

Accuracy is 0.6667

Print算子功能介绍

MindSpore的自研Print算子可以将用户输入的Tensor或字符串信息打印出来,支持多字符串输入,多Tensor输入和字符串与Tensor的混合输入,输入参数以逗号隔开。

Print算子使用方法与其他算子相同,在网络中的__init__声明算子并在construct进行调用,具体使用实例及输出结果如下:

import numpy as np
from mindspore import Tensor
from mindspore.ops import operations as P
import mindspore.nn as nn
import mindspore.context as context

context.set_context(mode=context.GRAPH_MODE)

class PrintDemo(nn.Cell):
    def __init__(self):
        super(PrintDemo, self).__init__()
        self.print = P.Print()

    def construct(self, x, y):
        self.print('print Tensor x and Tensor y:', x, y)
        return x

x = Tensor(np.ones([2, 1]).astype(np.int32))
y = Tensor(np.ones([2, 2]).astype(np.int32))
net = PrintDemo()
output = net(x, y)

输出:

print Tensor x and Tensor y:
Tensor shape:[[const vector][2, 1]]Int32
val:[[1]
[1]]
Tensor shape:[[const vector][2, 2]]Int32
val:[[1 1]
[1 1]]

异步数据Dump功能介绍

在Ascend环境上执行训练,当训练结果和预期有偏差时,可以通过异步数据Dump功能保存算子的输入输出进行调试。

异步数据Dump不支持comm_ops类别的算子,算子类别详见算子支持列表

  1. 开启IR保存开关: context.set_context(save_graphs=True)

  2. 执行网络脚本。

  3. 查看执行目录下的hwopt_d_end_graph_{graph id}.ir,找到需要Dump的算子名称。

  4. 配置Dump的json配置文件data_dump.json

    {
        "DumpSettings": {
            "net_name": "ResNet50",
            "dump_mode": 0,
            "op_debug_mode": 0,
            "iteration": 0,
            "kernels": ["Default/Conv2D-op2", "Default/TensorAdd-op10"]
        }
    }
    
    • net_name:自定义的网络名称,例如:”Resnet50”。

    • dump_mode:设置成0,表示Dump所有的算子;设置成1,表示Dump"kernel"里面制定的算子。

    • op_debug_mode:该属性用于算子溢出调试,在使用Dump功能的时候,请设置成0。

    • iteration:指定需要Dump的迭代。非数据下沉模式下,iteration需要设置成0,并且会Dump出每个迭代的数据。

    • kernels:指定需要Dump的算子名称(fullname_with_scope)。

  5. 设置数据Dump的环境变量。

    export ENABLE_DATA_DUMP=1
    export DATA_DUMP_PATH=/test
    export DATA_DUMP_CONFIG_PATH=data_dump.json
    
    • 在网络脚本执行前,设置好环境变量;网络脚本执行过程中设置将会不生效。

    • 在分布式场景下,Dump环境变量需要调用mindspore.communication.management.init之前配置。

  6. 再次执行用例进行异步数据Dump。

  7. 解析文件。

    执行完用例后去/var/log/npu/ide_daemon/dump/目录下,运行如下命令解析Dump数据:

    python /usr/local/Ascend/toolkit/tools/operator_cmp/compare/dump_data_conversion.pyc -type offline -target numpy -i ./{Dump出来的文件} -o ./{解析的文件路径}
    

日志相关的环境变量和配置

MindSpore采用glog来输出日志,常用的几个环境变量如下:

  1. GLOG_v 控制日志的级别,默认值为2,即WARNING级别,对应关系如下:0-DEBUG、1-INFO、2-WARNING、3-ERROR。

  2. GLOG_logtostderr 值设置为1时,日志输出到屏幕;值设置为0时,日志输出到文件。默认值为1。

  3. GLOG_log_dir=YourPath 指定日志输出的路径。若GLOG_logtostderr的值为0,则必须设置此变量。若指定了GLOG_log_dirGLOG_logtostderr的值为1时,则日志输出到屏幕,不输出到文件。C++和Python的日志会被输出到不同的文件中,C++日志的文件名遵从GLOG日志文件的命名规则,这里是mindspore.机器名.用户名.log.日志级别.时间戳,Python日志的文件名为mindspore.log

  4. MS_SUBMODULE_LOG_v="{SubModule1:LogLevel1,SubModule2:LogLevel2,...}" 指定MindSpore C++各子模块的日志级别,被指定的子模块的日志级别将覆盖GLOG_v在此模块内的设置,此处子模块的日志级别LogLevel与GLOG_v的日志级别含义相同,MindSpore子模块的划分如下表。如可以通过GLOG_v=1 MS_SUBMODULE_LOG_v="{PARSER:2,ANALYZER:2}"PARSERANALYZER模块的日志级别设为WARNING,其他模块的日志级别设为INFO。

glog不支持日志文件的绕接,如果需要控制日志文件对磁盘空间的占用,可选用操作系统提供的日志文件管理工具,例如:Linux的logrotate。

MindSpore子模块按照目录划分如下:

Source Files

Sub Module Name

mindspore/ccsrc/backend/kernel_compiler

KERNEL

mindspore/ccsrc/backend/optimizer

PRE_ACT

mindspore/ccsrc/backend/session

SESSION

mindspore/ccsrc/common

COMMON

mindspore/ccsrc/debug

DEBUG

mindspore/ccsrc/frontend/operator

ANALYZER

mindspore/ccsrc/frontend/optimizer

OPTIMIZER

mindspore/ccsrc/frontend/parallel

PARALLEL

mindspore/ccsrc/minddata/dataset

MD

mindspore/ccsrc/minddata/mindrecord

MD

mindspore/ccsrc/pipeline/jit/*.cc

PIPELINE

mindspore/ccsrc/pipeline/jit/parse

PARSER

mindspore/ccsrc/pipeline/jit/static_analysis

ANALYZER

mindspore/ccsrc/pipeline/pynative

PYNATIVE

mindspore/ccsrc/profiler

PROFILER

mindspore/ccsrc/pybind_api

COMMON

mindspore/ccsrc/runtime/device

DEVICE

mindspore/ccsrc/transform/graph_ir

GE_ADPT

mindspore/ccsrc/transform/onnx

ONNX

mindspore/ccsrc/utils

UTILS

mindspore/ccsrc/vm

VM

mindspore/ccsrc

ME

mindspore/core/gvar

COMMON

mindspore/core/

CORE