文档反馈

问题文档片段

问题文档片段包含公式时,显示为空格。

提交类型
issue

有点复杂...

找人问问吧。

请选择提交类型

问题类型
规范和低错类

- 规范和低错类:

- 错别字或拼写错误,标点符号使用错误、公式错误或显示异常。

- 链接错误、空单元格、格式错误。

- 英文中包含中文字符。

- 界面和描述不一致,但不影响操作。

- 表述不通顺,但不影响理解。

- 版本号不匹配:如软件包名称、界面版本号。

易用性

- 易用性:

- 关键步骤错误或缺失,无法指导用户完成任务。

- 缺少主要功能描述、关键词解释、必要前提条件、注意事项等。

- 描述内容存在歧义指代不明、上下文矛盾。

- 逻辑不清晰,该分类、分项、分步骤的没有给出。

正确性

- 正确性:

- 技术原理、功能、支持平台、参数类型、异常报错等描述和软件实现不一致。

- 原理图、架构图等存在错误。

- 命令、命令参数等错误。

- 代码片段错误。

- 命令无法完成对应功能。

- 界面错误,无法指导操作。

- 代码样例运行报错、运行结果不符。

风险提示

- 风险提示:

- 对重要数据或系统存在风险的操作,缺少安全提示。

内容合规

- 内容合规:

- 违反法律法规,涉及政治、领土主权等敏感词。

- 内容侵权。

请选择问题类型

问题描述

点击输入详细问题描述,以帮助我们快速定位问题。

mindspore.nn.LSTM

class mindspore.nn.LSTM(*args, **kwargs)[源代码]

长短期记忆(LSTM)网络,根据输出序列和给定的初始状态计算输出序列和最终状态。

在LSTM模型中,有两条管道连接两个连续的Cell,一条是Cell状态管道,另一条是隐藏状态管道。将两个连续的时间节点表示为 t1t 。指定在 t 时刻输入 xt ,在 t1 时刻的隐藏状态 ht1 和Cell状态 ct1 。在 t 时刻的Cell状态和隐藏状态使用门控机制计算得到。输入门 it 计算出候选值。遗忘门 ft 决定是否让上一时刻学到的信息通过或部分通过。输出门 ot 决定哪些信息输出。候选Cell状态 c~t 是用当前输入计算的。最后,使用遗忘门、输入门、输出门计算得到当前时刻的Cell状态 ct 和隐藏状态 ht 。完整的公式如下。

it=σ(Wixxt+bix+Wihh(t1)+bih)ft=σ(Wfxxt+bfx+Wfhh(t1)+bfh)c~t=tanh(Wcxxt+bcx+Wchh(t1)+bch)ot=σ(Woxxt+box+Wohh(t1)+boh)ct=ftc(t1)+itc~tht=ottanh(ct)

其中 σ 是sigmoid激活函数, 是乘积。 W,b 是公式中输出和输入之间的可学习权重。例如, Wix,bix 是用于从输入 x 转换为 i 的权重和偏置。

详细信息可见论文 LONG SHORT-TERM MEMORYLong Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling

LSTM隐藏了整个循环神经网络在序列时间步(Time step)上的循环,送入输入序列、初始状态,即可获得每个时间步的隐藏状态(hidden state)拼接而成的矩阵,以及最后一个时间步对应的隐状态。我们使用最后的一个时间步的隐藏状态作为输入句子的编码特征,送入下一层。公式为:

h0:n,(hn,cn)=LSTM(x0:n,(h0,c0))
参数:
  • input_size (int) - 输入的大小。

  • hidden_size (int) - 隐藏状态大小。

  • num_layers (int) - 网络层数。默认值:1。

  • has_bias (bool) - Cell是否有偏置项 b_{ih}b_{fh}。默认值:True。

  • batch_first (bool) - 指定输入 x 的第一个维度是否为batch_size。默认值:False。

  • dropout (float, int) - 指的是除第一层外每层输入时的dropout概率。默认值:0。dropout的范围为[0.0, 1.0)。

  • bidirectional (bool) - 是否为双向LSTM。默认值:False。

输入:
  • x (Tensor) - shape为 (seq_len, batch_size, input_size)或(batch_size, seq_len, input_size)的Tensor。

  • hx (tuple) - 两个Tensor(h_0,c_0)的元组,数据类型为mindspore.float32或mindspore.float16,shape为(num_directions * num_layers, batch_size, hidden_size)。hx 的数据类型必须与 x 相同。

  • seq_length (Tensor) - 输入batch的序列长度。Tensor的shape 为 (batch_size) 。默认:None。这里输入指明真实的序列长度,以避免使用填充后的元素计算隐藏状态,影响最后的输出。推荐这种输入方法。

输出:

Tuple,包含 (output, (h_n, c_n))的元组。

  • output (Tensor) - 形状为(seq_len, batch_size, num_directions * hidden_size)的Tensor。

  • hx_n (tuple) - 两个Tensor (h_n, c_n)的元组,shape都是(num_directions * num_layers, batch_size, hidden_size)。

异常:
  • TypeError - input_sizehidden_sizenum_layers 不是int。

  • TypeError - has_biasbatch_firstbidirectional 不是bool。

  • TypeError - dropout 既不是float也不是int。

  • ValueError - dropout 不在[0.0, 1.0)范围内。

支持平台:

Ascend GPU CPU

样例:

>>> net = nn.LSTM(10, 16, 2, has_bias=True, batch_first=True, bidirectional=False)
>>> x = Tensor(np.ones([3, 5, 10]).astype(np.float32))
>>> h0 = Tensor(np.ones([1 * 2, 3, 16]).astype(np.float32))
>>> c0 = Tensor(np.ones([1 * 2, 3, 16]).astype(np.float32))
>>> output, (hn, cn) = net(x, (h0, c0))
>>> print(output.shape)
(3, 5, 16)