mindspore.dataset.text.ToVectors

class mindspore.dataset.text.ToVectors(vectors, unk_init=None, lower_case_backup=False)[源代码]

根据输入向量表查找向量中的tokens。

参数:
  • vectors (Vectors) - 向量对象。

  • unk_init (sequence, 可选) - 用于初始化向量外(OOV)令牌的序列。默认值: None ,用零向量初始化。

  • lower_case_backup (bool, 可选) - 是否查找小写的token。如果为 False ,则将查找原始大小写中的每个token。 如果为 True ,则将首先查找原始大小写中的每个token,如果在属性stoi(字符->索引映射)的键中找不到,则将查找小写中的token。默认值: False

异常:
  • TypeError - 如果 unk_init 不是序列。

  • TypeError - 如果 unk_init 的元素不是float或int类型。

  • TypeError - 如果 lower_case_backup 不是bool类型。

支持平台:

CPU

样例:

>>> import mindspore.dataset as ds
>>> import mindspore.dataset.text as text
>>>
>>> # Use the transform in dataset pipeline mode
>>> numpy_slices_dataset = ds.NumpySlicesDataset(data=["happy", "birthday", "to", "you"], column_names=["text"])
>>> # Load vectors from file
>>> # The paths to vectors_file can be downloaded directly from the mindspore repository. Refer to
>>> # https://gitee.com/mindspore/mindspore/blob/v2.4.1/tests/ut/data/dataset/testVectors/vectors.txt
>>> vectors_file = "tests/ut/data/dataset/testVectors/vectors.txt"
>>> vectors = text.Vectors.from_file(vectors_file)
>>> # Use ToVectors operation to map tokens to vectors
>>> to_vectors = text.ToVectors(vectors)
>>> numpy_slices_dataset = numpy_slices_dataset.map(operations=[to_vectors])
>>> for item in numpy_slices_dataset.create_dict_iterator(num_epochs=1, output_numpy=True):
...     print(item["text"])
...     break
[0. 0. 0. 0. 0. 0.]
>>>
>>> # Use the transform in eager mode
>>> data = ["happy"]
>>> output = text.ToVectors(vectors)(data)
>>> print(output)
[0. 0. 0. 0. 0. 0.]
教程样例: