芯東西(公眾號:aichip001)
作者| ZeR0
編輯| 漠影
芯東西9月18日報道,今日,在華為全聯接大會2025開幕式上,華為副董事長、輪值董事長徐直軍發表主題演講,公佈華為昇騰AI晶片4年5款產品路線圖,並正式發布全球最強算力超節點和集群。
華為在今年第一季推出昇騰910C AI晶片,預計將於2026年第一季推出昇騰950PR,2026年第四季推出昇騰950DT,2027年第四季推出昇騰960,2028年第四季推出昇騰970。
▲昇騰晶片路線圖(芯東西製錶)
本次大會,華為推出基於靈衢和超節點架構的全新產品,包括全液冷資料中心AI超節點Atlas 950 SuperPoD、企業級風冷AI超節點伺服器Atlas 850和Atlas 860、AI新一代標卡Atlas 350、業界首個通算超節點Taishan 950 SuperPoPoDai等。
其中Atlas 350標卡採用的便是下一代昇騰950PR晶片。
一、4款全新AI晶片:大記憶體、高頻寬、強算力
昇騰950晶片架構新增支援低精度資料格式,FP8、MXFP8、 HiF8精度下AI算力可達到1PFLOPS,MXFP4精度下AI算力可達到2PFLOPS,互聯頻寬提升2.5倍至2TB/s。
此系列晶片還提升了向量算力配比,支援SIMD/ SIMT,並支援更精細粒度記憶體存取(512B→128B)。
其支持華為自研HBM。昇騰950PR採用的是HiBL 1.0,記憶體容量為128GB、頻寬為1.6TB/s;昇騰950DT採用的是HiZQ 2.0,記憶體容量為144GB、頻寬為4TB/s。
昇騰950PR提升了推理Prefill性能,支援FP8、MXFP8、HiF8、MXFP4,並優化了推薦業務性能。
昇騰950DT提升了推理Decode性能,支援FP8、MXFP8、HiF8、MXFP4;也提升了訓練性能,支援FP8、MXFP8、HiF8。
昇騰960大幅提升訓練和推理性能,算力、內存容量、內存頻寬、互聯端口數均翻倍,內存容量升級到288GB,內存頻寬為9.6TB/s,支援40個互聯端口,支援自研HiF4資料格式(最優4bit精度實現)。
此晶片在FP8精度下AI算力達到2PFLOPS,FP4精度下AI算力達4PFLOPS。
昇騰970的訓練與推理性能持續翻倍,FP8精度下AI算力達到4PFLOPS,FP4精度下AI算力達到8PFLOPS,記憶體頻寬為14.4TB/s,互聯頻寬為4TB/s。
整體而言,昇騰晶片迭代路徑是支援更多數值類型、升級更大記憶體容量與頻寬、實現更高算力、更加易用。
二、全球最強超節點叢集來了!支援百萬卡互聯
「算力過去是,未來也將繼續是人工智慧的關鍵,更是中國人工智慧的關鍵,」徐直軍談道,「基於中國可獲得的晶片製造工藝,華為努力打造「超節點+集群」算力解決方案,來滿足持續增長的算力需求。 」
超節點在物理上由多台機器組成,但邏輯上以一台機器學習、思考、推理。
徐直軍宣布,新發布的華為Atlas 950 SuperPoD和Atlas 960 SuperPoD超節點,分別支援8192張及15488張昇騰卡,在卡規模、總算力、內存容量、互聯頻寬等關鍵指標上全面領先,在未來多年都將是全球最強算力的超節點。
基於超節點,華為同時發布了全球最強超節點集群,分別是Atlas 950 SuperCluster和Atlas 960 SuperCluster,算力規模分別超過50萬卡和達到百萬卡。
徐直軍說,基於全球最強算力的超節點和集群,華為對於為人工智慧的長期快速發展提供可持續且充裕算力,充滿信心。
同時,華為率先把超節點技術引入通用計算領域,發布全球首個通用計算超節點TaiShan 950 SuperPoD,結合GaussDB分散式資料庫,能徹底取代各種應用場景的大型主機和小型機以及Exadata資料庫一體機,將成為各類大型主機、小型機的終結者。
華為基於三十多年構築的聯接技術能力,透過系統性創新,突破了大規模超節點的互聯技術巨大挑戰,開創了面向超節點的互聯協議靈衢(UnifiedBus)。
徐直軍宣布華為將開放靈衢2.0技術規範,歡迎產業夥伴基於靈衢研發相關產品與零件,共建靈衢開放生態。
華為董事、ICT BG CEO楊超斌說,基於靈衢互聯協議,華為開創了超節點架構,可將多台實體機器深度互聯,實現邏輯層面像一台機器一樣學習、思考與推理,重新定義了高效、穩定、可擴展的大規模有效算力新範式。
華為Atlas 900 A3 SuperPoD超節點至今已累計部署300多套,服務於網路、金融、營運商、電力、製造等產業的20多個客戶。
華為在本次大會上推出基於靈衢和超節點架構的全新產品,包括全液冷資料中心AI超節點Atlas 950 SuperPoD、企業級風冷AI超節點伺服器Atlas 850和Atlas 860、AI新一代標卡Atlas 350、業界首個通算超節點Taishan 950 SuperPoPoD、業界首個通算超節點TaishanD。
Atlas 950 SuperPoD,被稱作“面向超大型AI計算任務的最佳選擇”,從基礎器件、協議算法到光電技術,實現系統級創新突破。
透過正交架構,Atlas 950實現零線纜電互聯,採用液冷接頭浮動盲插設計做到零漏液,其獨創的材料和工藝讓光模組液冷可靠性提升1倍。
其創新的UB-Mesh遞歸直連拓樸網路架構,支援單板內、單板間及機架間的NPU全互聯,以64卡為步長按需擴展,最大可實現8192卡無收斂全互聯。
Atlas 850,是業界首家企業級風冷AI超節點伺服器,內部搭載8張昇騰NPU,有效滿足企業模型後訓練、多場景推理等需求。
此伺服器支援多櫃靈活部署,最大可形成128台1024卡的超節點叢集。這是目前業界唯一可在風冷機房實現超節點架構的算力叢集。
Atlas 350標卡,採用最新的昇騰950PR晶片,向量算力提升2倍,支援更細粒度的Cacheline訪問,在推薦推理場景可實現2.5倍性能提升,且單卡即可運行。
Atlas 350支援4個靈衢埠互聯,實現算力、記憶體等資源池化,讓更大參數模型、更低延遲應用可以在標卡上實現。
TaiShan 950 SuperPoD,是華為推出的業界首款通算超節點,具備370奈秒超低時延、 2.8T超大頻寬與記憶體池化能力,能大幅提升資料庫、虛機熱遷移和大數據場景等業務效能,為通算效能提升開闢全新路徑。
結論:全面開放超節點技術,推動協同創新
華為宣布全面開放超節點技術,與產業界共享技術紅利,共同推動超節點技術走向普惠與協同創新。
首先,開放靈衢協定和超節點參考架構,讓產業界基於技術規範自研相關產品或零件。
其次,全面開放超節點基礎硬件,包括NPU模組、風冷刀片、液冷刀片、AI標卡、CPU主板和級聯卡等不同形態的硬件,方便客戶和夥伴進行增量開發,設計基於靈衢的各種產品。
作業系統靈衢元件也將全部開源,元件程式碼將陸續合入openEuler等多個上游作業系統開源社群。
使用者可以根據實際需求,將部分或全部原始碼整合到現有作業系統中,自行迭代維護版本,也可以將整個元件直接合入現有作業系統,未來演進與開源社群版本同步。
同時,昇騰CANN全面開源開放,Mind系列元件也同步開源,並優先支援PyTorch、vLLM等業界開源社區,加速開發者自主創新。






