摩尔线程发布Torch-MUSA v2.7.0 加速国产GPU深度学习生态构建

微信公众平台 发布日期:
38

近日,摩尔线程正式推出PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.7.0。该版本在功能集成、性能优化及硬件支持方面实现突破性进展,延续了v2.5.0至v2.7.0仅一个月内两次版本更新的快速迭代节奏,彰显摩尔线程在MUSA生态建设上的持续投入与技术实力。

Torch-MUSA开源地址:https://github.com/MooreThreads/torch_musa

摩尔线程发布Torch-MUSA v2.7.0 加速国产GPU深度学习生态构建

版本迭代与生态协同

自v2.5.0版本起,Torch-MUSA版本号与PyTorch主版本号保持同步,便于开发者精准识别与管理。新版本深度集成muSolver与muFFT计算加速库,显著提升复杂计算任务执行效率;新增对统一内存设备(Unified Memory)的UMM支持,优化内存使用效率,并保持与MUSA SDK 4.2.0至4.3.0及更高版本的编译兼容性。目前,Torch-MUSA专属支持的算子总数已突破1050个,系统性能与稳定性实现双重提升,为大模型训练与推理提供高效可靠的底层支持。

v2.7.0核心更新内容

  • 新增特性

  • 动态双精度转换(Dynamic Double Cast):通过设置环境变量export TORCH_USE_MUSA_DOUBLE_CAST=1,可开启Float64算子的动态转换为float32计算,优化资源利用率。

  • 分布式检查点(Distributed Checkpoint):支持多rank并行加载/保存模型,加速检查点操作,并已实现异步保存功能。

  • 功能增强

  • 新增Poisson、binomial、standardgamma、sampledirichlet、vdot、upsample(1d/2d/3d/with aa)、flashattention、transformerencoder_layer等算子,算子总数超1050个

  • PyTorch底层支持升级:torch.compile与AOTInductor功能增强;

  • 默认启用TF32计算模式,提升浮点运算效率;

  • 优化性能分析工具Kineto稳定性并升级至2.7.0适配版本;

  • 优化FSDP2流水线并行策略,进一步降低内存占用。

v2.5.0关键更新回顾

  • 新增特性:集成muFFT与muSolver库,扩展计算能力;在边缘计算SoC设备中支持统一内存管理,基于Arm架构UMA设计实现GPU与CPU共享物理内存,消除重复内存分配、减少主机-设备内存拷贝,GPU可直接访问CPU分配的内存空间。

  • 算子扩展与性能优化:新增ilshift、irshift、replicationpad1dbwd等算子,支持基础Sparse(CSR)操作,扩充量化算子范围;修复torch.norm形状错误、空输入argmax/argmin异常行为;优化var/std、pad、convolution3d、layer_norm等操作效率。

  • 系统功能增强:开放torch.musa.mccl.version()接口;支持getCurrentMUSABlasHandlegetCurrentMUSABlasLtHandle;优化FSDP2流水线并行策略降低训练内存占用。

未来规划

Torch-MUSA将持续跟进PyTorch版本更新,计划下一版本支持PyTorch 2.9.0,并进一步优化性能与功能,持续完善基于MUSA架构的国产全功能GPU深度学习生态,为开发者提供更高效的工具链支持。

打赏
THE END
作者头像
AI工具集
工具不孤岛,AI集大成——这里有你要的一切智能解法