mindspore.dataset.text.PythonTokenizer

class mindspore.dataset.text.PythonTokenizer(tokenizer)[源代码]

使用用户自定义的分词器对输入字符串进行分词。

参数：

tokenizer (Callable) - Python可调用对象，要求接收一个string参数作为输入，并返回一个包含多个string的列表作为返回值。

异常：

TypeError - 参数 tokenizer 不是一个可调用的Python对象。

支持平台：

CPU

样例：

>>> import mindspore.dataset as ds
>>> import mindspore.dataset.text as text
>>>
>>> def my_tokenizer(line):
...     return line.split()
>>>
>>> text_file_list = ["/path/to/text_file_dataset_file"]
>>> text_file_dataset = ds.TextFileDataset(dataset_files=text_file_list)
>>> text_file_dataset = text_file_dataset.map(operations=text.PythonTokenizer(my_tokenizer))

教程样例：

文本变换样例库