文档反馈

问题文档片段

问题文档片段包含公式时,显示为空格。

提交类型
issue

有点复杂...

找人问问吧。

PR

小问题,全程线上修改...

一键搞定!

请选择提交类型

问题类型
规范和低错类

- 规范和低错类:

- 错别字或拼写错误,标点符号使用错误、公式错误或显示异常。

- 链接错误、空单元格、格式错误。

- 英文中包含中文字符。

- 界面和描述不一致,但不影响操作。

- 表述不通顺,但不影响理解。

- 版本号不匹配:如软件包名称、界面版本号。

易用性

- 易用性:

- 关键步骤错误或缺失,无法指导用户完成任务。

- 缺少主要功能描述、关键词解释、必要前提条件、注意事项等。

- 描述内容存在歧义指代不明、上下文矛盾。

- 逻辑不清晰,该分类、分项、分步骤的没有给出。

正确性

- 正确性:

- 技术原理、功能、支持平台、参数类型、异常报错等描述和软件实现不一致。

- 原理图、架构图等存在错误。

- 命令、命令参数等错误。

- 代码片段错误。

- 命令无法完成对应功能。

- 界面错误,无法指导操作。

- 代码样例运行报错、运行结果不符。

风险提示

- 风险提示:

- 对重要数据或系统存在风险的操作,缺少安全提示。

内容合规

- 内容合规:

- 违反法律法规,涉及政治、领土主权等敏感词。

- 内容侵权。

请选择问题类型

问题描述

点击输入详细问题描述,以帮助我们快速定位问题。

mindformers.core.AdamW

查看源文件
class mindformers.core.AdamW(params, learning_rate=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0.0)[源代码]

权重衰减Adam算法的实现。

Parameters:1st moment vectorm,2ndmoment vectorv,gradientsg,learning rateγ,exponential decay rates for the moment estimatesβ1β2,parameter vectorw0,timestept,weight decayλInit:m00,v00,t0,init parameter vectorw0repeattt+1gtft(wt1)wtwt1γλwt1mtβ1mt1+(1β1)gtvtβ2vt1+(1β2)gt2mt^mt/(1β1t)vt^vt/(1β2t)wtwt1γmt^/(vt^+ϵ)until stopping criterion is met returnwt

m 代表第一个动量矩阵 moment1v 代表第二个动量矩阵 moment2m^ 代表经过偏差修正的第一个动量矩阵, v^ 代表经过偏差修正的第二个动量矩阵, g 代表 gradientsγ 代表 learning_rateβ1,β2 代表 beta1beta2t 代表当前step,w 代表 paramsλ 代表 weight_decay

参数:
  • params (Union[list[Parameter], list[dict]]) - 必须是 Parameter 组成的列表或字典组成的列表。当列表元素是字典时,字典的键可以是"params"、"lr"、"weight_decay"、和"order_params":

    • "params":必选。当前组中的参数。值必须是 Parameter 的列表。

    • "lr":可选。如果键中包含 "lr",则使用对应的学习率值。如果未包含,则使用优化器中的 learning_rate。支持固定和动态学习率。

    • "weight_decay":可选。如果键中包含 "weight_decay",则使用对应的权重衰减值。如果未包含,则使用优化器中的 weight_decay。需要注意的是,权重衰减可以是常数值或 Cell。仅在应用动态权重衰减时才为 Cell。动态权重衰减类似于动态学习率,用户需要自定义仅以全局步数为输入的权重衰减计划,在训练过程中,优化器将调用 WeightDecaySchedule 实例来获取当前步的权重衰减值。

    • "order_params":可选。当参数被分组时,通常用于维护网络中出现的参数顺序以提高性能。值应为优化器中将遵循其顺序的参数。如果键中包含 order_params,其他键将被忽略,并且 'order_params' 的元素必须在 params 的一组中。

  • learning_rate (Union[float, int, Tensor, Iterable, LearningRateSchedule], 可选) - 默认值: 1e-3

    • "float":固定学习率值。必须等于或大于 0。

    • "int":固定学习率值。必须等于或大于 0。将转换为浮点数。

    • "Tensor":其值应为标量或 1-D 向量。对于标量,将应用固定学习率。对于向量,学习率是动态的,第 i 步将使用第 i 个值作为学习率。

    • "Iterable":学习率是动态的。第 i 步将使用第 i 个值作为学习率。

    • "LearningRateSchedule":学习率是动态的。在训练过程中,优化器将调用 LearningRateSchedule 实例并以步数为输入来获取当前步的学习率。

  • betas (Union[list(float), tuple(float)], 可选) - moment1moment2 的指数衰减率。每一个参数范围(0.0,1.0)。默认值: (0.9, 0.999)

  • eps (float, 可选) - 将添加到分母中,以提高数值稳定性。必须大于0。默认值: 1e-6

  • weight_decay (Union[float, int, Cell], 可选) - 权重衰减(L2 penalty)。默认值: 0.0

    • "float":固定的权重衰减值。必须等于或大于 0。

    • "int":固定的权重衰减值。必须等于或大于 0。将被转换为浮点数。

    • "Cell":权重衰减是动态的。在训练过程中,优化器将调用 Cell 实例,并以步数为输入来获取当前步的权重衰减值。

  • use_fused (bool, 可选) - 是否启用融合算子。默认值: False

  • amsgrad (bool, 可选) - 是否使用 Adam 算法的 AMSGrad 变体。该变体会保留历史梯度平方的最大值,而非使用指数移动平均值。在某些情况下,这有助于改善模型的收敛性。为 True 时使用 AMSGrad 变体,仅支持 use_fused=True 的场景。默认值: False

  • maximize (bool, 可选) - 是否对目标函数执行最大化(而非最小化)操作。该选项适用于需要最大化奖励函数或效用函数的场景。为 True 时最大化目标函数,仅支持 use_fused=True 的场景。默认值: False

输入:
  • gradients (tuple[Tensor]) - params 的梯度,shape与 params 相同。

输出:

tuple[bool],所有元素都为True。

异常:
  • TypeError - learning_rate 不是int、float、Tensor、Iterable或LearningRateSchedule。

  • TypeError - parameters 的元素不是Parameter或字典。

  • TypeError - betas[0]betas[1]eps 不是float。

  • TypeError - weight_decay 不是float或int。

  • ValueError - eps 小于等于0。

  • ValueError - betas[0]betas[1] 不在(0.0,1.0)范围内。

  • ValueError - weight_decay 小于0。

样例:

>>> import mindspore as ms
>>> import mindspore.nn as nn
>>> from mindformers import AutoModel
>>> from mindformers.core.optim import AdamW
>>>
>>> ms.set_context(mode=ms.context.GRAPH_MODE)
>>> net = AutoModel.from_pretrained("llama2_7b", num_layers=2)
>>> #1) All parameters use the same learning rate and weight decay
>>> optim = AdamW(params=net.trainable_params())
>>>
>>> #2) Use parameter groups and set different values
>>> layernorm_params = list(filter(lambda x: 'norm' in x.name, net.trainable_params()))
>>> no_layernorm_params = list(filter(lambda x: 'norm' not in x.name, net.trainable_params()))
>>> group_params = [{'params': layernorm_params, 'weight_decay': 0.01},
...                 {'params': no_layernorm_params, 'lr': 0.01},
...                 {'order_params': net.trainable_params()}]
>>> optim = AdamW(group_params, learning_rate=0.1, weight_decay=0.0)
>>> # The layernorm_params's parameters will use default learning rate of 0.1 and weight decay of 0.01.
>>> # The no_layernorm_params's parameters will use learning rate of 0.01 and default weight decay of 0.0.
>>> # The final parameters order in which the optimizer will be followed is the value of 'order_params'.
>>>
>>> loss = nn.SoftmaxCrossEntropyWithLogits()
>>> model = ms.Model(net, loss_fn=loss, optimizer=optim)