mindspore.dataset.text.ToVectors
- class mindspore.dataset.text.ToVectors(vectors, unk_init=None, lower_case_backup=False)[源代码]
根据输入向量表查找向量中的tokens。
- 参数:
vectors (Vectors) - 向量对象。
unk_init (sequence, 可选) - 用于初始化向量外(OOV)令牌的序列。默认值:
None
,用零向量初始化。lower_case_backup (bool, 可选) - 是否查找小写的token。如果为
False
,则将查找原始大小写中的每个token。 如果为True
,则将首先查找原始大小写中的每个token,如果在属性stoi(字符->索引映射)的键中找不到,则将查找小写中的token。默认值:False
。
- 异常:
TypeError - 如果 unk_init 不是序列。
TypeError - 如果 unk_init 的元素不是float或int类型。
TypeError - 如果 lower_case_backup 不是bool类型。
- 支持平台:
CPU
样例:
>>> import mindspore.dataset as ds >>> import mindspore.dataset.text as text >>> >>> # Load vectors from file >>> vectors = text.Vectors.from_file("/path/to/vectors/file") >>> # Use ToVectors operation to map tokens to vectors >>> to_vectors = text.ToVectors(vectors) >>> >>> text_file_list = ["/path/to/text_file_dataset_file"] >>> text_file_dataset = ds.TextFileDataset(dataset_files=text_file_list) >>> text_file_dataset = text_file_dataset.map(operations=[to_vectors])
- 教程样例: