mindspore.dataset.text.AddToken

class mindspore.dataset.text.AddToken(token, begin=True)[源代码]

将分词(token)添加到序列的开头或结尾处。

参数:
  • token (str) - 待添加的分词(token)。

  • begin (bool, 可选) - 选择分词(token)插入的位置,若为 True 则在序列开头插入,否则在序列结尾插入。默认值: True

异常:
  • TypeError - 如果 token 的类型不为str。

  • TypeError - 如果 begin 的类型不为bool。

支持平台:

CPU

样例:

>>> dataset = ds.NumpySlicesDataset(data={"text": [['a', 'b', 'c', 'd', 'e']]})
>>> # Data before
>>> # |           text            |
>>> # +---------------------------+
>>> # | ['a', 'b', 'c', 'd', 'e'] |
>>> # +---------------------------+
>>> add_token_op = text.AddToken(token='TOKEN', begin=True)
>>> dataset = dataset.map(operations=add_token_op)
>>> # Data after
>>> # |           text            |
>>> # +---------------------------+
>>> # | ['TOKEN', 'a', 'b', 'c', 'd', 'e'] |
>>> # +---------------------------+