mindspore.dataset.text.PythonTokenizer
- class mindspore.dataset.text.PythonTokenizer(tokenizer)[源代码]
使用用户自定义的分词器对输入字符串进行分词。
- 参数:
tokenizer (Callable) - Python可调用对象,要求接收一个string参数作为输入,并返回一个包含多个string的列表作为返回值。
- 异常:
TypeError - 参数 tokenizer 不是一个可调用的Python对象。
- 支持平台:
CPU
样例:
>>> import mindspore.dataset as ds >>> import mindspore.dataset.text as text >>> >>> def my_tokenizer(line): ... return line.split() >>> >>> text_file_list = ["/path/to/text_file_dataset_file"] >>> text_file_dataset = ds.TextFileDataset(dataset_files=text_file_list) >>> text_file_dataset = text_file_dataset.map(operations=text.PythonTokenizer(my_tokenizer))
- 教程样例: