预训练

查看源文件

概述

预训练是指在大规模无标注数据上训练模型,使其能够全面捕捉语言的广泛特性。通过预训练,模型可以学习到词汇、句法和语义等层面的知识,这些知识在下游任务中通过微调得到应用,从而优化特定任务的性能。MindFormers框架的预训练目标是帮助开发者快速、便捷地构建和训练基于Transformer架构的预训练模型。

预训练的基本操作流程

结合实际操作,预训练的基本流程可以分解为以下步骤:

  1. 数据集准备: 预训练需要在一个大规模、未标注的文本数据集上进行,这些数据集通常包含来自网络、书籍、文章等多种来源的大量文本。数据集的多样性和规模对模型的泛化能力有很大影响。

  2. 选择模型架构: 根据任务需求和计算资源,选择合适的模型架构来构建预训练模型。

  3. 执行预训练: 在准备好的大规模数据集上执行预训练,使用配置好的模型架构和训练配置进行长时间的训练,生成最终的预训练模型权重。

  4. 保存模型: 训练完成后,将模型权重保存到指定位置。

基于MindFormers的预训练实践

MindFormers目前已经支持业界主流大模型,该实践流程选择以Llama2-7B和Llama3-70B分别展示单机训练多机训练

数据集准备

数据集名称

适用模型

适用阶段

下载链接

Wikitext2

Llama2-7B

Pretrain

Link

Wiki103

Llama3-70B

Pretrain

Link

数据预处理

其中Llama2-7B的数据集处理可参考Wikitext2数据预处理,Llama3-70B的数据集处理可参考Wiki103数据预处理

执行预训练任务

单机训练

以Llama2-7B为例,通过指定配置文件pretrain_llama2_7b.yaml以msrun的方式启动run_mindformer.py脚本,进行8卡分布式训练,启动命令如下:

bash scripts/msrun_launcher.sh "run_mindformer.py \
 --config configs/llama2/pretrain_llama2_7b.yaml \
 --train_dataset_dir /{path}/wiki4096.mindrecord \
 --use_parallel True \
 --run_mode train" 8

 # 参数说明:
 config:            模型的配置文件,文件在MindFormers代码仓中config目录下
 train_dataset_dir: 训练数据集路径
 use_parallel:      是否开启并行
 run_mode:          运行模式,train:训练,finetune:微调,predict:推理

任务执行完成后,在mindformers/output目录下,会生成checkpoint文件夹,同时模型文件会保存在该文件夹下。

多机训练

以Llama3-70B为例,使用pretrain_llama3_70b.yaml配置文件,以msrun方式运行run_llama3.py执行8机64卡预训练。多机多卡执行脚本进行分布式训练需要分别在不同节点运行脚本,并将参数MASTER_ADDR设置为主节点的ip地址,所有节点设置的ip地址相同,不同节点之间仅参数NODE_RANK不同,各个参数位置含义参见msrun启动使用指南

# 节点0,设0节点ip为MASTER_ADDR,作为主节点ip,总共64卡且每个节点8卡
# 节点0、节点1、...节点7 依此修改node_num,比如8机,node_num为0~7。
bash scripts/msrun_launcher.sh "run_llama3.py \
  --config pretrain_llama3_70b.yaml \
 --train_dataset dataset_dir
 --use_parallel True \
 --run_mode train" \
 64 8 {MASTER_ADDR} 8118 {node_num} output/msrun_log False 300

 # 参数说明:
 config:            模型的配置文件,文件在MindFormers代码仓中config目录下
 train_dataset_dir: 训练数据集路径
 use_parallel:      是否开启并行
 run_mode:          运行模式,train:训练,finetune:微调,predict:推理

注意: 在多机分布式训练的过程中,可能会遇到一些性能问题。为了确保训练过程的高效性和稳定性,建议参考大模型性能调优指南,进行必要的性能优化和调整。

更多信息

更多关于不同模型的训练示例,请访问MindFormers已支持模型库