mindspore.dataset.text.RegexTokenizer
=====================================

.. py:class:: mindspore.dataset.text.RegexTokenizer(delim_pattern, keep_delim_pattern='', with_offsets=False)

    根据正则表达式对字符串进行分词。
    
    有关支持的正则表达式的模式，请参阅 https://unicode-org.github.io/icu/userguide/strings/regexp.html。

    .. note:: Windows平台尚不支持 `RegexTokenizer` 。

    参数：
        - **delim_pattern** (str) - 以正则表达式表示的分隔符，字符串将被正则匹配的分隔符分割。
        - **keep_delim_pattern** (str, 可选) - 如果被 `delim_pattern` 匹配的字符串也能被 `keep_delim_pattern` 匹配，就可以此分隔符作为标记(token)保存。 
          默认值： ''（空字符），即分隔符不会作为输出标记保留。
        - **with_offsets** (bool, 可选) - 是否输出分词标记(token)的偏移量。默认值：False，不输出。

    异常：
        - **TypeError** - 参数 `delim_pattern` 的类型不是str。
        - **TypeError** - 参数 `keep_delim_pattern` 的类型不是str。
        - **TypeError** - 参数 `with_offsets` 的类型不是bool。