摩尔线程发布Torch-MUSA v2.7.0 加速国产GPU深度学习生态构建

微信公众平台发布日期：2025-11-28

近日，摩尔线程正式推出PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.7.0。该版本在功能集成、性能优化及硬件支持方面实现突破性进展，延续了v2.5.0至v2.7.0仅一个月内两次版本更新的快速迭代节奏，彰显摩尔线程在MUSA生态建设上的持续投入与技术实力。

Torch-MUSA开源地址：https://github.com/MooreThreads/torch_musa

版本迭代与生态协同

自v2.5.0版本起，Torch-MUSA版本号与PyTorch主版本号保持同步，便于开发者精准识别与管理。新版本深度集成muSolver与muFFT计算加速库，显著提升复杂计算任务执行效率；新增对统一内存设备（Unified Memory）的UMM支持，优化内存使用效率，并保持与MUSA SDK 4.2.0至4.3.0及更高版本的编译兼容性。目前，Torch-MUSA专属支持的算子总数已突破1050个，系统性能与稳定性实现双重提升，为大模型训练与推理提供高效可靠的底层支持。

v2.7.0核心更新内容

新增特性
动态双精度转换（Dynamic Double Cast）：通过设置环境变量export TORCH_USE_MUSA_DOUBLE_CAST=1，可开启Float64算子的动态转换为float32计算，优化资源利用率。
分布式检查点（Distributed Checkpoint）：支持多rank并行加载/保存模型，加速检查点操作，并已实现异步保存功能。
功能增强
新增Poisson、binomial、standardgamma、sampledirichlet、vdot、upsample（1d/2d/3d/with aa）、flashattention、transformerencoder_layer等算子，算子总数超1050个；
PyTorch底层支持升级：torch.compile与AOTInductor功能增强；
默认启用TF32计算模式，提升浮点运算效率；
优化性能分析工具Kineto稳定性并升级至2.7.0适配版本；
优化FSDP2流水线并行策略，进一步降低内存占用。

v2.5.0关键更新回顾

新增特性：集成muFFT与muSolver库，扩展计算能力；在边缘计算SoC设备中支持统一内存管理，基于Arm架构UMA设计实现GPU与CPU共享物理内存，消除重复内存分配、减少主机-设备内存拷贝，GPU可直接访问CPU分配的内存空间。
算子扩展与性能优化：新增ilshift、irshift、replicationpad1dbwd等算子，支持基础Sparse(CSR)操作，扩充量化算子范围；修复torch.norm形状错误、空输入argmax/argmin异常行为；优化var/std、pad、convolution3d、layer_norm等操作效率。
系统功能增强：开放torch.musa.mccl.version()接口；支持getCurrentMUSABlasHandle与getCurrentMUSABlasLtHandle；优化FSDP2流水线并行策略降低训练内存占用。

未来规划

Torch-MUSA将持续跟进PyTorch版本更新，计划下一版本支持PyTorch 2.9.0，并进一步优化性能与功能，持续完善基于MUSA架构的国产全功能GPU深度学习生态，为开发者提供更高效的工具链支持。

深度学习摩尔线程

打赏

版权及免责申明：本文来源于#微信公众平台，由@AI工具集整理发布。如若内容造成侵权/违法违规/事实不符，请联系本站客服处理!该文章观点仅代表作者本人，不代表本站立场。本站不承担相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/483.html

THE END

AI工具集

工具不孤岛，AI集大成——这里有你要的一切智能解法

+ 关注

摩尔线程发布Torch-MUSA v2.7.0 加速国产GPU深度学习生态构建

文章目录

版本迭代与生态协同

v2.7.0核心更新内容

新增特性

功能增强

v2.5.0关键更新回顾

未来规划

相关文章