<b id="zlk11"><small id="zlk11"></small></b>
  • <b id="zlk11"><sub id="zlk11"></sub></b>

  • <rp id="zlk11"></rp>
    <var id="zlk11"></var>
    <video id="zlk11"><td id="zlk11"><output id="zlk11"></output></td></video>
      1. 當前位置: 當前位置:首頁 > 焦點 > 摩爾線程發布Torch 正文

        摩爾線程發布Torch

        2025-12-05 14:57:33 來源:企業錄(www.cmjokers.net)-公司信息發布,網上買賣交易門戶 作者:百科 點擊:913次

        11月28日消息,線程摩爾線程正式發布了PyTorch深度學習框架的發布最新版MUSA擴展庫——Torch-MUSA v2.7.0,在功能集成、線程性能優化、發布硬件支持上都實現了進一步突破。線程

        值得一提的發布是,在短短一個月內,線程Torch-MUSA就連續完成了v2.5.0、發布v2.7.0兩次版本更新。線程

        另外一個變化就是發布,v2.5.0版本起,線程Torch-MUSA版本號與PyTorch主版本號保持同步,發布便于開發者進行版本識別與管理。線程

        v2.7.0版本進一步集成了muSolver、發布muFFT等計算加速庫,線程顯著提升復雜計算任務的執行效率;

        新增支持統一內存設備(Unified Memory)的UMM,有效優化內存使用效率。

        繼續保持與最新MUSA SDK的兼容性,支持使用MUSA SDK 4.2.0至4.3.0及更高版本進行編譯。

        目前,Torch-MUSA專屬支持的算子總數已超過1050個,系統在性能與穩定性方面均實現進一步提升,為大模型訓練與推理提供了更高效、更可靠的底層支持。

        下一次版本升級將是v2.9.0,進一步優化性能與功能,持續構建和完善基于MUSA架構國產全功能GPU的深度學習生態。

        ▼ Torch-MUSA開源地址:

        https://github.com/MooreThreads/torch_musa

        v2.7.0版本主要更新內容

        新增特性

        ▼ 動態雙精度轉換(Dynamic Double Cast)

        用戶可通過設置環境變量export TORCH_USE_MUSA_DOUBLE_CAST=1,開啟Float64數據類型算子的動態轉換功能,torch_musa將使用float32作為計算數據類型。

        ▼ 分布式檢查點(Distributed Checkpoint)

        支持從多個rank并行加載和保存模型,顯著加速檢查點的保存與加載過程。目前已支持分布式檢查點的異步保存功能。

        功能增強

        ▼ 新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample(1d、2d、3d、with aa)、flash_attention、transformer_encoder_layer 等多個實用算子,MUSA專屬支持的算子總數突破1050個。 

        ▼ 通過升級PyTorch底層支持,torch.compile與AOTInductor功能進一步增強; 

        ▼ 默認啟用TF32計算模式,提升浮點運算效率; 

        ▼ 優化性能分析工具Kineto的穩定性,并將其適配版本升級至2.7.0;

        ▼ 繼續優化FSDP2流水線并行策略,進一步降低內存占用。

        v2.5.0版本主要更新內容

        新增特性

        ▼ 新增muFFT與muSolver庫集成,大幅擴展計算能力;

        ▼ 在面向邊緣計算的SoC設備中支持統一內存管理,基于Arm 架構的UMA(統一內存尋址)設計,實現GPU與CPU共享同一物理內存空間,顯著降低模型運行過程中的內存開銷,具體包括:

        消除GPU端重復內存分配;

        減少主機與設備間的內存拷貝;

        GPU可直接訪問由CPU分配器申請的內存空間。

        算子擴展與性能優化

        ▼ 新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多個算子;

        ▼ 新增基礎 Sparse(CSR) 操作支持;

        ▼ 擴充量化算子支持范圍;

        ▼ 修復torch.norm形狀錯誤問題;

        ▼ 支持reduce_sum的uint8輸入與int64輸出;

        ▼ C++擴展新增支持tensor.is_musa()方法;

        ▼ 修復空輸入下argmax/argmin的異常行為;

        ▼ 優化var/std、pad、convolution3d、layer_norm等操作的執行效率。

        系統功能增強

        ▼ 開放torch.musa.mccl.version()接口;

        ▼ 支持getCurrentMUSABlasHandle與getCurrentMUSABlasLtHandle;

        ▼ 優化FSDP2流水線并行策略,降低訓練內存占用。

        作者:熱點
        ------分隔線----------------------------
        頭條新聞
        圖片新聞
        新聞排行榜
        最斩殴美精品一二三区_手机免费Av片在线播放_精品在线欧美一区二区_亚洲欧洲自拍拍偷午夜色无码_精品3d动画肉动漫在线无码_日本高清中文字幕二区不卡