mindspore.dataset.text.SentencePieceVocab
==========================================

.. image:: https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/website-images/master/resource/_static/logo_source.svg
    :target: https://atomgit.com/mindspore/mindspore/blob/master/docs/api/api_python/dataset_text/mindspore.dataset.text.SentencePieceVocab.rst
    :alt: 查看源文件


.. py:class:: mindspore.dataset.text.SentencePieceVocab

    用于执行分词的SentencePiece对象。

    .. py:method:: from_dataset(dataset, col_names, vocab_size, character_coverage, model_type, params)
        :classmethod:

        从数据集构建SentencePiece。

        参数：
            - **dataset** (Dataset) - 表示用于构建SentencePiece对象的数据集。
            - **col_names** (list) - 表示列名称的列表。
            - **vocab_size** (int) - 表示词汇大小。
            - **character_coverage** (float) - 表示模型涵盖的字符比例。推荐值： ``0.9995`` （适用于具有丰富字符集的语言，如日文或中文）、 ``1.0`` （适用于具有小字符集的其他语言）。
            - **model_type** (:class:`~.text.SentencePieceModel`) - 想要使用的子词算法。可选值详见 :class:`~.text.SentencePieceModel` 。
            - **params** (dict) - 表示没有传入参数的字典。

        返回：
            SentencePieceVocab，从数据集构建的Vocab对象。

    .. py:method:: from_file(file_path, vocab_size, character_coverage, model_type, params)
        :classmethod:

        从文件中构建一个SentencePiece对象。

        参数：
            - **file_path** (list) - 表示包含SentencePiece文件路径的一个列表。
            - **vocab_size** (int) - 表示词汇大小。
            - **character_coverage** (float) - 表示模型涵盖的字符比例。推荐值： ``0.9995`` （适用于具有丰富字符集的语言，如日文或中文）、 ``1.0`` （适用于具有小字符集的其他语言）。
            - **model_type** (:class:`~.text.SentencePieceModel`) - 想要使用的子词算法。可选值详见 :class:`~.text.SentencePieceModel` 。
            - **params** (dict) - 表示没有传入参数的字典（参数派生自SentencePiece库）。

        返回：
            SentencePieceVocab，表示从文件中构建的Vocab对象。

    .. py:method:: save_model(vocab, path, filename)
        :classmethod:

        将模型保存到给定的文件路径。

        参数：
            - **vocab** (SentencePieceVocab) - 表示一个SentencePiece对象。
            - **path** (str) - 表示存储模型的路径。
            - **filename** (str) - 表示文件名称。