mindspore.dataset.text.transforms.NormalizeUTF8

class mindspore.dataset.text.transforms.NormalizeUTF8(normalize_form=NormalizeForm.NFKC)[源代码]

对UTF-8编码的字符串进行规范化处理。

Note

Windows平台尚不支持 NormalizeUTF8 。

参数：

normalize_form (NormalizeForm, 可选) - 指定不同的规范化形式，可以取值为 NormalizeForm.NONE, NormalizeForm.NFC, NormalizeForm.NFKC、NormalizeForm.NFD、NormalizeForm.NFKD此四种unicode中的任何一种形式，默认值：NormalizeForm.NFKC。
- NormalizeForm.NONE，对输入字符串不做任何处理。
- NormalizeForm.NFC，对输入字符串进行C形式规范化。
- NormalizeForm.NFKC，对输入字符串进行KC形式规范化。
- NormalizeForm.NFD，对输入字符串进行D形式规范化。
- NormalizeForm.NFKD，对输入字符串进行KD形式规范化。
有关规范化详细信息，请参阅 http://unicode.org/reports/tr15/。

异常：

TypeError - 参数 normalize_form 的类型不是 mindspore.dataset.text.NormalizeForm 。

支持平台：: CPU

样例：

>>> from mindspore.dataset.text import NormalizeForm
>>> normalize_op = text.NormalizeUTF8(normalize_form=NormalizeForm.NFC)
>>> text_file_dataset = text_file_dataset.map(operations=normalize_op)