mindspore.dataset.TextBaseDataset.build_sentencepiece_vocab =========================================================== .. py:method:: mindspore.dataset.TextBaseDataset.build_sentencepiece_vocab(columns, vocab_size, character_coverage, model_type, params) 迭代源数据集对象获取数据并构建SentencePiece词汇表。 源数据集要求的是文本类数据集。 参数: - **columns** (list[str]) - 指定 `build_sentencepiece_vocab` 操作的输入列,会从该列获取数据构造词汇表。 - **vocab_size** (int) - 词汇表的容量。 - **character_coverage** (float) - 模型涵盖的字符百分比,必须介于0.98和1.0之间。 对于具有丰富字符集的语言,如日语或中文字符集,推荐使用0.9995;对于其他字符集较小的语言,比如英语或拉丁文,推荐使用1.0。 - **model_type** (SentencePieceModel) - 训练的SentencePiece模型类型,可取值为 'SentencePieceModel.UNIGRAM'、 'SentencePieceModel.BPE'、 'SentencePieceModel.CHAR'或 'SentencePieceModel.WORD'。 当取值为 'SentencePieceModel.WORD'时,输入的数据必须进行预分词(pretokenize)。默认值:SentencePieceModel.UNIGRAM。 - **params** (dict) - 如果希望使用SentencePiece的其他参数,可以构造一个dict进行传入,键为SentencePiece库接口的输入参数名,值为参数值。 返回: 构建好的SentencePiece词汇表。