mindspore.dataset.text.SentencePieceVocab ========================================== .. image:: https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/website-images/master/resource/_static/logo_source.svg :target: https://gitee.com/mindspore/mindspore/blob/master/docs/api/api_python/dataset_text/mindspore.dataset.text.SentencePieceVocab.rst :alt: 查看源文件 .. py:class:: mindspore.dataset.text.SentencePieceVocab 用于执行分词的SentencePiece对象。 .. py:method:: from_dataset(dataset, col_names, vocab_size, character_coverage, model_type, params) :classmethod: 从数据集构建SentencePiece。 参数: - **dataset** (Dataset) - 表示用于构建SentencePiece对象的数据集。 - **col_names** (list) - 表示列名称的列表。 - **vocab_size** (int) - 表示词汇大小。 - **character_coverage** (float) - 表示模型涵盖的字符数量。推荐值: ``0.9995`` ,适用于具有丰富字符集的语言,如日文或中文, ``1.0`` 适用于具有小字符集的其他语言。 - **model_type** (:class:`~.text.SentencePieceModel`) - 想要使用的子词算法。可选值详见 :class:`~.text.SentencePieceModel` 。 - **params** (dict) - 表示没有传入参数的字典。 返回: SentencePieceVocab,从数据集构建的Vocab对象。 .. py:method:: from_file(file_path, vocab_size, character_coverage, model_type, params) :classmethod: 从文件中构建一个SentencePiece对象。 参数: - **file_path** (list) - 表示包含SentencePiece文件路径的一个列表。 - **vocab_size** (int) - 表示词汇大小。 - **character_coverage** (float) - 表示模型涵盖的字符数量。推荐值: ``0.9995`` ,适用于具有丰富字符集的语言,如日文或中文, ``1.0`` 适用于具有小字符集的其他语言。 - **model_type** (:class:`~.text.SentencePieceModel`) - 想要使用的子词算法。可选值详见 :class:`~.text.SentencePieceModel` 。 - **params** (dict) - 表示没有传入参数的字典(参数派生自SentencePiece库)。 返回: SentencePieceVocab,表示从文件中构建的Vocab对象。 .. py:method:: save_model(vocab, path, filename) :classmethod: 将模型保存到给定的文件路径。 参数: - **vocab** (SentencePieceVocab) - 表示一个SentencePiece对象。 - **path** (str) - 表示存储模型的路径。 - **filename** (str) - 表示文件名称。