mindspore.dataset.text.ToVectors

class mindspore.dataset.text.ToVectors(vectors, unk_init=None, lower_case_backup=False)[源代码]

根据输入向量表查找向量中的tokens。

参数：

vectors (Vectors) - 向量对象。
unk_init (sequence, 可选) - 用于初始化向量外（OOV）令牌的序列。默认值： None ，用零向量初始化。
lower_case_backup (bool, 可选) - 是否查找小写的token。如果为 False ，则将查找原始大小写中的每个token。如果为 True ，则将首先查找原始大小写中的每个token，如果在属性stoi（字符->索引映射）的键中找不到，则将查找小写中的token。默认值： False 。

异常：

TypeError - 如果 unk_init 不是序列。
TypeError - 如果 unk_init 的元素不是float或int类型。
TypeError - 如果 lower_case_backup 不是bool类型。

支持平台：

CPU

样例：

>>> import mindspore.dataset as ds
>>> import mindspore.dataset.text as text
>>>
>>> # Use the transform in dataset pipeline mode
>>> numpy_slices_dataset = ds.NumpySlicesDataset(data=["happy", "birthday", "to", "you"], column_names=["text"])
>>> # Load vectors from file
>>> # The paths to vectors_file can be downloaded directly from the mindspore repository. Refer to
>>> # https://gitee.com/mindspore/mindspore/blob/v2.4.1/tests/ut/data/dataset/testVectors/vectors.txt
>>> vectors_file = "tests/ut/data/dataset/testVectors/vectors.txt"
>>> vectors = text.Vectors.from_file(vectors_file)
>>> # Use ToVectors operation to map tokens to vectors
>>> to_vectors = text.ToVectors(vectors)
>>> numpy_slices_dataset = numpy_slices_dataset.map(operations=[to_vectors])
>>> for item in numpy_slices_dataset.create_dict_iterator(num_epochs=1, output_numpy=True):
...     print(item["text"])
...     break
[0. 0. 0. 0. 0. 0.]
>>>
>>> # Use the transform in eager mode
>>> data = ["happy"]
>>> output = text.ToVectors(vectors)(data)
>>> print(output)
[0. 0. 0. 0. 0. 0.]

教程样例：

文本变换样例库