摩尔线程发布Torch-MUSA v2.7.0 加速国产GPU深度学习生态构建
近日,摩尔线程正式推出PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.7.0。该版本在功能集成、性能优化及硬件支持方面实现突破性进展,延续了v2.5.0至v2.7.0仅一个月内两次版本更新的快速迭代节奏,彰显摩尔线程在MUSA生态建设上的持续投入与技术实力。
Torch-MUSA开源地址:https://github.com/MooreThreads/torch_musa

版本迭代与生态协同
自v2.5.0版本起,Torch-MUSA版本号与PyTorch主版本号保持同步,便于开发者精准识别与管理。新版本深度集成muSolver与muFFT计算加速库,显著提升复杂计算任务执行效率;新增对统一内存设备(Unified Memory)的UMM支持,优化内存使用效率,并保持与MUSA SDK 4.2.0至4.3.0及更高版本的编译兼容性。目前,Torch-MUSA专属支持的算子总数已突破1050个,系统性能与稳定性实现双重提升,为大模型训练与推理提供高效可靠的底层支持。
v2.7.0核心更新内容
新增特性
动态双精度转换(Dynamic Double Cast):通过设置环境变量
export TORCH_USE_MUSA_DOUBLE_CAST=1,可开启Float64算子的动态转换为float32计算,优化资源利用率。分布式检查点(Distributed Checkpoint):支持多rank并行加载/保存模型,加速检查点操作,并已实现异步保存功能。
功能增强
新增Poisson、binomial、standardgamma、sampledirichlet、vdot、upsample(1d/2d/3d/with aa)、flashattention、transformerencoder_layer等算子,算子总数超1050个;
PyTorch底层支持升级:torch.compile与AOTInductor功能增强;
默认启用TF32计算模式,提升浮点运算效率;
优化性能分析工具Kineto稳定性并升级至2.7.0适配版本;
优化FSDP2流水线并行策略,进一步降低内存占用。
v2.5.0关键更新回顾
新增特性:集成muFFT与muSolver库,扩展计算能力;在边缘计算SoC设备中支持统一内存管理,基于Arm架构UMA设计实现GPU与CPU共享物理内存,消除重复内存分配、减少主机-设备内存拷贝,GPU可直接访问CPU分配的内存空间。
算子扩展与性能优化:新增ilshift、irshift、replicationpad1dbwd等算子,支持基础Sparse(CSR)操作,扩充量化算子范围;修复torch.norm形状错误、空输入argmax/argmin异常行为;优化var/std、pad、convolution3d、layer_norm等操作效率。
系统功能增强:开放
torch.musa.mccl.version()接口;支持getCurrentMUSABlasHandle与getCurrentMUSABlasLtHandle;优化FSDP2流水线并行策略降低训练内存占用。
未来规划
Torch-MUSA将持续跟进PyTorch版本更新,计划下一版本支持PyTorch 2.9.0,并进一步优化性能与功能,持续完善基于MUSA架构的国产全功能GPU深度学习生态,为开发者提供更高效的工具链支持。
版权及免责申明:本文来源于#微信公众平台,由@AI工具集整理发布。如若内容造成侵权/违法违规/事实不符,请联系本站客服处理!该文章观点仅代表作者本人,不代表本站立场。本站不承担相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/483.html

