ForgeTrain:全自动 AI 生成训练框架,降低 10% 大模型预训练成本

原创 发布日期:
66

一、ForgeTrain 是什么

ForgeTrainOpenBMB 开源的 v0.1.0 版本大模型预训练框架,是全球首个全程由 AI 智能体循环自主编写、零人工代码修改的生产级 LLM 预训练基础设施,核心面向 NVIDIA H100 系列显卡,专为 MiniCPM4‑0.5B/8B 模型预训练深度优化,采用 Apache‑2.0 开源协议,已完成真实模型权重训练验证,可直接用于工业级预训练任务。

该框架由 AI Agent 闭环自主完成代码编写、调试、优化与提交,彻底颠覆传统大模型训练框架依赖海量人工研发的模式,实现AI 制造 AI的工程落地,在算力利用率、训练速度上显著超越业界主流框架,为大模型预训练提供低成本、高效率、高可靠的全新解决方案。

二、功能特色

  1. 100% AI 自主研发,零人工介入
    框架全程由 AI 智能体循环自主完成:读取参考代码→实现功能→启动训练任务→解析日志→定位故障→修复代码→通过校验→提交版本,无任何人工代码修改,是全球首款真正意义上全 AI 生成的生产级大模型训练框架。

  2. 算力利用率行业领先

  • 在 64×H100、BF16 精度、纯数据并行场景下,MFU 达 44.13%,较 Megatron‑LM 基准(约 40%)提升约 10%

  • 单算子 MFU 最高可达**90%**,自研 FlashAttention 算子性能比肩 FA4,超越 Transformer Engine 与 FA3

  1. 生产级稳定验证
    已完成 MiniCPM4‑0.5B 全量预训练,产出真实可用模型权重,非演示项目;支持单机 8×H100、多机多卡分布式训练,满足工业级预训练稳定性与可靠性要求。

  2. 极致算子优化
    AI 自主实现 5 个 CuTeDSL 自定义 GEMM 算子、从零编写 FlashAttention 内核,支持 CUDA Graph、Triton 融合核、通信‑计算重叠,兼顾训练速度与显存效率。

  3. 极简部署与使用
    支持 AI 编程助手一键部署,无需手动逐行输入命令;提供一键导出 HuggingFace 格式权重,降低框架使用门槛。

  4. 双引擎适配不同规模模型

  • MiniCPM4‑0.5B 引擎:纯数据并行,64 卡 H100 达 44.13% MFU

  • MiniCPM4‑8B 引擎:张量并行 TP=2,单机 8 卡 H100 达 50.9% MFU

ForgeTrain:全自动 AI 生成训练框架,降低 10% 大模型预训练成本

三、技术细节

1. 核心架构:Agent Loop + Harness 脚手架

  • Harness(即将上线):驱动 AI 智能体循环的核心脚手架,负责制定评测标准、控制智能体执行流程、校验代码质量

  • Training Engine:AI 智能体自主生成的训练引擎,分 0.5B/8B 两个版本,直接用于模型预训练
    两者为严格的生产者‑产品关系,执行bash agent‑loop.sh即可启动全自动生成流程,无需人工干预。

2. AI 智能体闭环研发流程

  1. 读取参考训练框架(Megatron‑LM v0.15)代码与规范

  2. 自主实现训练核心模块、算子、分布式逻辑

  3. 启动训练任务,实时解析日志定位故障

  4. 自动修复代码漏洞、优化性能瓶颈

  5. 通过前向/反向对齐、长训练统计校验等关卡

  6. 自动提交合格代码,完成版本迭代

3. 两级关卡驱动收敛机制

  • Stage 1(M1‑M6):实现比特级前向/反向对齐、多步训练、长训练统计校验(损失相对差异<1%,MFU≥36%)

  • Stage 2:单算子 CUDA 内核优化,每个算子迭代 30 轮,择优选用,每次合并后通过分布式集成校验。

4. 高性能技术组件

  • CUDA Graph:支持 5 种捕获粒度,可自由组合 Bucket 梯度聚合、分片优化器、权重梯度重叠

  • Triton 融合核:自主实现 CE 前后向、SwiGLU、RMSNorm+残差、RoPE、融合 Adam+参数同步等融合算子

  • 自定义算子:5 个 CuTeDSL GEMM 算子、自研 FlashAttention,性能比肩业界顶尖方案。

5. 环境依赖

GPU:NVIDIA H100 80GB(SM90,Hopper 架构)
GPU 数量:单机 8 卡用于完整预训练,单卡用于早期对齐
CUDA 版本:≥12.x
Python 版本:≥3.11
PyTorch 版本:≥2.4
适配模型:MiniCPM4‑0.5B(DP‑only)、MiniCPM4‑8B(TP=2)
精度:BF16

四、应用场景

  1. 大模型企业预训练
    适合拥有 H100 集群的 AI 企业,用于 MiniCPM4 系列基座模型预训练,降低 10% 训练成本与耗时,提升研发效率。

  2. 科研机构模型研发
    科研团队可快速复现预训练流程,聚焦模型结构创新,无需投入大量人力开发训练框架,缩短研发周期。

  3. AI 框架技术验证
    用于验证AI 自主生成工业级系统软件的可行性,探索 AI 辅助研发、全自动代码生成的前沿方向。

  4. 小参数模型高效训练
    针对 0.5B‑8B 小参数模型,提供轻量化、高效率预训练方案,适配资源有限但需快速迭代模型的场景。

  5. 分布式训练教学与研究
    作为分布式训练、算子优化、CUDA 编程的教学案例,直观展示高性能训练框架的核心原理。

五、使用方法

1. 环境准备

确保满足以下条件:

  • Python≥3.11、CUDA≥12.x、PyTorch≥2.4

  • NVIDIA H100 80GB 显卡,单机 8 卡用于完整训练

2. 一键部署(推荐 AI 编程助手执行)

将以下命令粘贴至 Cursor/Claude Code 等编程助手,自动完成部署与测试:

Following this project's exports/train_engine_0.5B/README.md,
run a 5-step minimal pretraining demo on the current node:

1. Check the environment (Python ≥ 3.11, CUDA ≥ 12.x, H100, PyTorch ≥ 2.4)
  and install anything missing;
2. Install the repo: pip install -e . and HF deps: pip install datasets transformers;
3. Import smoke test:
  PYTHONPATH=src python -c "from training_engine_tensor import config; print('OK')"
4. Run 5 steps on HF GSM8K:
  torchrun --standalone --nproc-per-node=1 \
   -m training_engine_tensor pretrain \
   --num-steps 5 --global-batch-size 1 --micro-batch-size 1 \
   --seq-length 4096 \
   --hf-dataset openai/gsm8k --hf-dataset-config main \
   --hf-text-template "Question: {question}\nAnswer: {answer}" \
   --tokenizer-path openbmb/MiniCPM4-0.5B \
   --save-dir ./checkpoints/demo
5. Print the final loss, step time, and MFU.

3. 手动部署流程

  1. 克隆仓库

git clone https://github.com/OpenBMB/ForgeTrain.git
cd ForgeTrain/exports/train_engine_0.5B
  1. 安装依赖

pip install -e .
pip install datasets transformers
  1. 验证安装

PYTHONPATH=src python -c "from training_engine_tensor import config; print('OK')"
  1. 预编译算子(首次运行)

PYTHONPATH=src CUSTOM_GEMM=1 OP_ATTENTION=v1 python scripts/precompile_ops.py
  1. 单机 8×H100 启动预训练

torchrun --standalone --nproc-per-node=8 \
  -m training_engine_tensor pretrain \
  --num-steps 200 \
  --global-batch-size 1280 --micro-batch-size 10 \
  --seq-length 4096 \
  --hf-dataset openai/gsm8k \
  --hf-dataset-config main \
  --hf-text-template "Question: {question}\nAnswer: {answer}" \
  --tokenizer-path openbmb/MiniCPM4-0.5B \
  --save-dir ./checkpoints/run1

运行后输出格式:[STEP 200] loss=X.XXX | step_time=XXXms | mfu=44.XX%,MFU 稳定在 44% 左右即为正常。

六、竞品对比

选取业界主流大模型预训练框架 Megatron‑LM、DeepSpeed 与 ForgeTrain 对比,核心差异如下:

对比维度 ForgeTrain Megatron‑LM DeepSpeed
代码生成方式 100% AI 智能体自主生成,零人工修改 人工研发为主 人工研发为主
H100 MFU 44.13%(MiniCPM4‑0.5B,DP‑only) 约 40% 约 38%
性能优势 较 Megatron‑LM 提升约 10% 业界基准 通用性强,性能中等
自定义算子 自主实现 CuTeDSL GEMM、FlashAttention,比肩 FA4 依赖 TE/FA 上游算子 支持自定义,优化程度一般
模型适配 专注 MiniCPM4‑0.5B/8B 支持多模型家族 支持全尺寸模型
部署难度 极简,AI 一键部署 复杂,需人工配置 中等,需手动调参
权重导出 单脚本一键导出 HuggingFace 手动操作 需额外配置
开源协议 Apache‑2.0 Apache‑2.0 Apache‑2.0

七、常见问题解答

Q:运行时提示“CUDA 版本不兼容”怎么办?

A:ForgeTrain 要求 CUDA≥12.x,需升级 CUDA 版本,并确保 PyTorch 与 CUDA 版本匹配,重新安装依赖后重试。

Q:非 H100 显卡可以运行吗?

A:当前 v0.1.0 仅支持 NVIDIA H100(SM90)显卡,暂不兼容其他型号显卡,后续版本将逐步扩展适配范围。

Q:MFU 低于 40% 是什么原因?

A:可能是算子未预编译、batch size 设置不合理、显卡驱动版本过低,建议执行预编译脚本、调整 batch size、更新显卡驱动后重新运行。

Q:如何导出 HuggingFace 格式权重?

A:框架提供专用导出脚本,直接运行对应目录下的导出脚本,即可将训练 checkpoint 转换为 HuggingFace 格式,无需手动转换。

Q:单卡 H100 可以完整训练吗?

A:单卡仅支持早期对齐与简易测试,完整预训练需单机 8×H100 或多机多卡集群,确保算力与显存满足需求。

Q:训练过程中断后如何恢复?

A:框架支持断点续训,启动命令中添加续训参数,指定已保存的 checkpoint 目录,即可从中断步骤继续训练。

八、相关链接

九、总结

ForgeTrain 作为 OpenBMB 推出的全球首款AI 全自主研发生产级大模型预训练框架,以零人工代码介入、领先的算力利用率、极简的部署流程、生产级的稳定性,重新定义大模型训练框架研发模式,在 H100 集群上实现超越 Megatron‑LM 的训练性能,已完成 MiniCPM4 系列模型真实预训练验证,兼顾高效、低成本与易用性,为大模型工业级预训练、AI 自主研发探索提供关键支撑,是小参数模型高效训练与 AI 生成系统软件的标杆级开源项目。

打赏
THE END
作者头像
dotaai
正在和我的聊天机器人谈恋爱,它很会捧场。