mindspore.dataset.text.ToVectors
- class mindspore.dataset.text.ToVectors(vectors, unk_init=None, lower_case_backup=False)[源代码]
根据输入向量表查找向量中的tokens。
- 参数:
vectors (Vectors) - 向量对象。
unk_init (sequence, 可选) - 用于初始化向量外(OOV)令牌的序列。默认值:
None
,用零向量初始化。lower_case_backup (bool, 可选) - 是否查找小写的token。如果为
False
,则将查找原始大小写中的每个token。 如果为True
,则将首先查找原始大小写中的每个token,如果在属性stoi(字符->索引映射)的键中找不到,则将查找小写中的token。默认值:False
。
- 异常:
TypeError - 如果 unk_init 不是序列。
TypeError - 如果 unk_init 的元素不是float或int类型。
TypeError - 如果 lower_case_backup 不是bool类型。
- 支持平台:
CPU
样例:
>>> import mindspore.dataset as ds >>> import mindspore.dataset.text as text >>> >>> # Use the transform in dataset pipeline mode >>> numpy_slices_dataset = ds.NumpySlicesDataset(data=["happy", "birthday", "to", "you"], column_names=["text"]) >>> # Load vectors from file >>> # The paths to vectors_file can be downloaded directly from the mindspore repository. Refer to >>> # https://gitee.com/mindspore/mindspore/blob/v2.4.1/tests/ut/data/dataset/testVectors/vectors.txt >>> vectors_file = "tests/ut/data/dataset/testVectors/vectors.txt" >>> vectors = text.Vectors.from_file(vectors_file) >>> # Use ToVectors operation to map tokens to vectors >>> to_vectors = text.ToVectors(vectors) >>> numpy_slices_dataset = numpy_slices_dataset.map(operations=[to_vectors]) >>> for item in numpy_slices_dataset.create_dict_iterator(num_epochs=1, output_numpy=True): ... print(item["text"]) ... break [0. 0. 0. 0. 0. 0.] >>> >>> # Use the transform in eager mode >>> data = ["happy"] >>> output = text.ToVectors(vectors)(data) >>> print(output) [0. 0. 0. 0. 0. 0.]
- 教程样例: