比较与torchtext.data.functional.simple_space_split的差异
torchtext.data.functional.simple_space_split
torchtext.data.functional.simple_space_split(iterator)
mindspore.dataset.text.WhitespaceTokenizer
class mindspore.dataset.text.WhitespaceTokenizer(with_offsets=False)
使用方式
PyTorch:基于空白字符对输入的字符串进行分词。
MindSpore:基于空白字符对输入的字符串进行分词。
分类 |
子类 |
PyTorch |
MindSpore |
差异 |
---|---|---|---|---|
参数 |
参数1 |
- |
with_offsets |
是否输出token的偏移量 |
代码示例
# PyTorch
from torchtext.data.functional import simple_space_split
list_a = "sentencepiece encode as pieces"
result = simple_space_split([list_a])
print(list(result))
# Out: [['sentencepiece', 'encode', 'as', 'pieces']]
# MindSpore
import mindspore.dataset.text as text
result = text.WhitespaceTokenizer()(list_a)
print(list(result))
# Out: ['sentencepiece', 'encode', 'as', 'pieces']