文档反馈

问题文档片段

问题文档片段包含公式时，显示为空格。

提交类型

issue

有点复杂...

找人问问吧。

PR

小问题，全程线上修改...

一键搞定！

请选择提交类型

问题类型

规范和低错类

- 规范和低错类：

- 错别字或拼写错误，标点符号使用错误、公式错误或显示异常。

- 链接错误、空单元格、格式错误。

- 英文中包含中文字符。

- 界面和描述不一致，但不影响操作。

- 表述不通顺，但不影响理解。

- 版本号不匹配：如软件包名称、界面版本号。

易用性

- 易用性：

- 关键步骤错误或缺失，无法指导用户完成任务。

- 缺少主要功能描述、关键词解释、必要前提条件、注意事项等。

- 描述内容存在歧义指代不明、上下文矛盾。

- 逻辑不清晰，该分类、分项、分步骤的没有给出。

正确性

- 正确性：

- 技术原理、功能、支持平台、参数类型、异常报错等描述和软件实现不一致。

- 原理图、架构图等存在错误。

- 命令、命令参数等错误。

- 代码片段错误。

- 命令无法完成对应功能。

- 界面错误，无法指导操作。

- 代码样例运行报错、运行结果不符。

风险提示

- 风险提示：

- 对重要数据或系统存在风险的操作，缺少安全提示。

内容合规

- 内容合规：

- 违反法律法规，涉及政治、领土主权等敏感词。

- 内容侵权。

请选择问题类型

问题描述

点击输入详细问题描述，以帮助我们快速定位问题。

文档反馈

mindformers.core.AdamW

class mindformers.core.AdamW(params, learning_rate=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0.0)[源代码]

权重衰减Adam算法的实现。

\begin{array}{r} \begin{array}{l} Parameters : 1^{st} moment vector m, 2^{nd} moment vector v, \\ g r a d i e n t s g, learning rate γ, exponential decay rates for the moment estimates β_{1} β_{2}, \\ parameter vector w_{0}, timestep t, weight decay λ \\ Init : m_{0} \leftarrow 0, v_{0} \leftarrow 0, t \leftarrow 0, init parameter vector w_{0} \\ repeat \\ t \leftarrow t + 1 \\ g_{t} \leftarrow \nabla f_{t} (w_{t - 1}) \\ w_{t} \leftarrow w_{t - 1} - γ λ w_{t - 1} \\ m_{t} \leftarrow β_{1} m_{t - 1} + (1 - β_{1}) g_{t} \\ v_{t} \leftarrow β_{2} v_{t - 1} + (1 - β_{2}) g_{t}^{2} \\ \hat{m_{t}} \leftarrow m_{t} / (1 - β_{1}^{t}) \\ \hat{v_{t}} \leftarrow v_{t} / (1 - β_{2}^{t}) \\ w_{t} \leftarrow w_{t - 1} - γ \hat{m_{t}} / (\sqrt{\hat{v_{t}}} + ϵ) \\ until stopping criterion is met \\ return w_{t} \end{array} \end{array}

$m$ 代表第一个动量矩阵 moment1 ， $v$ 代表第二个动量矩阵 moment2 ， $\hat{m}$ 代表经过偏差修正的第一个动量矩阵， $\hat{v}$ 代表经过偏差修正的第二个动量矩阵， $g$ 代表 gradients ， $γ$ 代表 learning_rate ， $β_{1}, β_{2}$ 代表 beta1 和 beta2 ， $t$ 代表当前step， $w$ 代表 params ， $λ$ 代表 weight_decay 。

参数：

params (Union[list[Parameter], list[dict]]) - 必须是 Parameter 组成的列表或字典组成的列表。当列表元素是字典时，字典的键可以是"params"、"lr"、"weight_decay"、和"order_params"：
- "params"：必选。当前组中的参数。值必须是 Parameter 的列表。
- "lr"：可选。如果键中包含 "lr"，则使用对应的学习率值。如果未包含，则使用优化器中的 learning_rate。支持固定和动态学习率。
- "weight_decay"：可选。如果键中包含 "weight_decay"，则使用对应的权重衰减值。如果未包含，则使用优化器中的 weight_decay。需要注意的是，权重衰减可以是常数值或 Cell。仅在应用动态权重衰减时才为 Cell。动态权重衰减类似于动态学习率，用户需要自定义仅以全局步数为输入的权重衰减计划，在训练过程中，优化器将调用 WeightDecaySchedule 实例来获取当前步的权重衰减值。
- "order_params"：可选。当参数被分组时，通常用于维护网络中出现的参数顺序以提高性能。值应为优化器中将遵循其顺序的参数。如果键中包含 order_params，其他键将被忽略，并且 'order_params' 的元素必须在 params 的一组中。
learning_rate (Union[float, int, Tensor, Iterable, LearningRateSchedule], 可选) - 默认值： 1e-3 。
- "float"：固定学习率值。必须等于或大于 0。
- "int"：固定学习率值。必须等于或大于 0。将转换为浮点数。
- "Tensor"：其值应为标量或 1-D 向量。对于标量，将应用固定学习率。对于向量，学习率是动态的，第 i 步将使用第 i 个值作为学习率。
- "Iterable"：学习率是动态的。第 i 步将使用第 i 个值作为学习率。
- "LearningRateSchedule"：学习率是动态的。在训练过程中，优化器将调用 LearningRateSchedule 实例并以步数为输入来获取当前步的学习率。
betas (Union[list(float), tuple(float)], 可选) - moment1、 moment2 的指数衰减率。每一个参数范围（0.0,1.0）。默认值： (0.9, 0.999) 。
eps (float, 可选) - 将添加到分母中，以提高数值稳定性。必须大于0。默认值： 1e-6 。
weight_decay (Union[float, int, Cell], 可选) - 权重衰减（L2 penalty）。默认值： 0.0 。
- "float"：固定的权重衰减值。必须等于或大于 0。
- "int"：固定的权重衰减值。必须等于或大于 0。将被转换为浮点数。
- "Cell"：权重衰减是动态的。在训练过程中，优化器将调用 Cell 实例，并以步数为输入来获取当前步的权重衰减值。
use_fused (bool, 可选) - 是否启用融合算子。默认值： False 。
amsgrad (bool, 可选) - 是否使用 Adam 算法的 AMSGrad 变体。该变体会保留历史梯度平方的最大值，而非使用指数移动平均值。在某些情况下，这有助于改善模型的收敛性。为 True 时使用 AMSGrad 变体，仅支持 use_fused=True 的场景。默认值： False 。
maximize (bool, 可选) - 是否对目标函数执行最大化（而非最小化）操作。该选项适用于需要最大化奖励函数或效用函数的场景。为 True 时最大化目标函数，仅支持 use_fused=True 的场景。默认值： False 。

输入：

gradients (tuple[Tensor]) - params 的梯度，shape与 params 相同。

输出：

tuple[bool]，所有元素都为True。

异常：

TypeError - learning_rate 不是int、float、Tensor、Iterable或LearningRateSchedule。
TypeError - parameters 的元素不是Parameter或字典。
TypeError - betas[0] 、 betas[1] 或 eps 不是float。
TypeError - weight_decay 不是float或int。
ValueError - eps 小于等于0。
ValueError - betas[0] 、 betas[1] 不在（0.0,1.0）范围内。
ValueError - weight_decay 小于0。

样例：

>>> import mindspore as ms
>>> import mindspore.nn as nn
>>> from mindformers import AutoModel
>>> from mindformers.core.optim import AdamW
>>>
>>> ms.set_context(mode=ms.context.GRAPH_MODE)
>>> net = AutoModel.from_pretrained("llama2_7b", num_layers=2)
>>> #1) All parameters use the same learning rate and weight decay
>>> optim = AdamW(params=net.trainable_params())
>>>
>>> #2) Use parameter groups and set different values
>>> layernorm_params = list(filter(lambda x: 'norm' in x.name, net.trainable_params()))
>>> no_layernorm_params = list(filter(lambda x: 'norm' not in x.name, net.trainable_params()))
>>> group_params = [{'params': layernorm_params, 'weight_decay': 0.01},
...                 {'params': no_layernorm_params, 'lr': 0.01},
...                 {'order_params': net.trainable_params()}]
>>> optim = AdamW(group_params, learning_rate=0.1, weight_decay=0.0)
>>> # The layernorm_params's parameters will use default learning rate of 0.1 and weight decay of 0.01.
>>> # The no_layernorm_params's parameters will use learning rate of 0.01 and default weight decay of 0.0.
>>> # The final parameters order in which the optimizer will be followed is the value of 'order_params'.
>>>
>>> loss = nn.SoftmaxCrossEntropyWithLogits()
>>> model = ms.Model(net, loss_fn=loss, optimizer=optim)