mindspore.dataset.text.ToVectors

class mindspore.dataset.text.ToVectors(vectors, unk_init=None, lower_case_backup=False)[源代码]

根据输入向量表查找向量中的tokens。

参数:
  • vectors (Vectors) - 向量对象。

  • unk_init (sequence, 可选) - 用于初始化向量外(OOV)令牌的序列。默认值:None,用零向量初始化。

  • lower_case_backup (bool, 可选) - 是否查找小写的token。如果为False,则将查找原始大小写中的每个token。 如果为True,则将首先查找原始大小写中的每个token,如果在属性stoi(字符->索引映射)的键中找不到,则将查找小写中的token。默认值:False。

异常:
  • TypeError - 如果 unk_init 不是序列。

  • TypeError - 如果 unk_init 的元素不是float或int类型。

  • TypeError - 如果 lower_case_backup 不是bool类型。

支持平台:

CPU

样例:

>>> import mindspore.dataset.text as text
>>> # Load vectors from file
>>> vectors = text.Vectors.from_file("/path/to/vectors/file")
>>> # Use ToVectors operation to map tokens to vectors
>>> to_vectors = text.ToVectors(vectors)
>>> text_file_dataset = text_file_dataset.map(operations=[to_vectors])