91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

國產(chǎn)算力破局:從萬卡到十萬卡,跨越技術(shù)鴻溝的“三重門”挑戰(zhàn)

   發(fā)布時間:2026-03-21 06:09 作者:鐘景軒

中科曙光近日在鄭州宣布,其自主研發(fā)的scaleFabric高速網(wǎng)絡(luò)產(chǎn)品已成功應(yīng)用于國家超算互聯(lián)網(wǎng)核心節(jié)點的萬卡級國產(chǎn)智算集群。這一突破標志著國產(chǎn)算力基礎(chǔ)設(shè)施在關(guān)鍵技術(shù)領(lǐng)域?qū)崿F(xiàn)重要進展,為應(yīng)對國際競爭提供了新的技術(shù)支撐。與海外巨頭英偉達宣稱的十萬卡集群規(guī)模相比,國產(chǎn)算力雖在數(shù)量級上存在差距,但通過全棧自主創(chuàng)新,正逐步縮小技術(shù)代差。

中國科學(xué)院計算技術(shù)研究所專家指出,曙光實現(xiàn)的萬卡集群是當前國內(nèi)唯一完成CPU、GPU、交換機芯片及網(wǎng)卡芯片全棧國產(chǎn)化的案例。此前,英偉達通過收購邁絡(luò)思掌握InfiniBand(IB)網(wǎng)絡(luò)核心技術(shù),長期壟斷高端算力集群的互聯(lián)市場。國產(chǎn)算力產(chǎn)業(yè)因這一技術(shù)瓶頸,在向超大規(guī)模集群發(fā)展的過程中面臨諸多限制。曙光scaleX集群的落地,不僅打破了IB網(wǎng)絡(luò)的技術(shù)壟斷,更為國產(chǎn)算力生態(tài)的完善奠定了基礎(chǔ)。

從技術(shù)層面看,萬卡到十萬卡的跨越并非簡單的規(guī)模擴張。中科曙光高級副總裁李斌表示,當集群規(guī)模呈數(shù)量級增長時,計算效率的可擴展性與系統(tǒng)可靠性成為核心挑戰(zhàn)。行業(yè)數(shù)據(jù)顯示,支撐下一代萬億參數(shù)大模型訓(xùn)練需八萬至十萬卡規(guī)模的集群,而單點故障率在超大規(guī)模系統(tǒng)中會被指數(shù)級放大。確保十萬張加速卡協(xié)同運行數(shù)小時甚至數(shù)天完成訓(xùn)練,其技術(shù)復(fù)雜度呈幾何級上升。

奇異摩爾聯(lián)合創(chuàng)始人??|從互聯(lián)角度分析,超大規(guī)模集群對交換機帶寬、存儲容量及端側(cè)協(xié)議提出更高要求。傳統(tǒng)IB或RoCEv2協(xié)議基于“無損網(wǎng)絡(luò)”設(shè)計,但在十萬卡規(guī)模下,網(wǎng)絡(luò)必然變?yōu)椤坝袚p”,需解決高效重傳、丟包處理及擁塞管理等難題。該公司通過自研Kiwi Fabric協(xié)議棧,采用快速檢測與重傳機制應(yīng)對挑戰(zhàn)。然而,硬件與協(xié)議僅是基礎(chǔ),網(wǎng)絡(luò)、計算、供電、機柜形態(tài)及上層控制系統(tǒng)的整體協(xié)同同樣關(guān)鍵。

北京科技大學(xué)儲根深教授的實踐印證了這一點。其團隊利用曙光scaleFabric支持的GPU顯存直接互聯(lián)技術(shù),將通信路徑從“GPU-CPU內(nèi)存-網(wǎng)絡(luò)-CPU內(nèi)存-GPU”優(yōu)化為“GPU顯存直通網(wǎng)絡(luò)”,使萬卡規(guī)模下部分軟件的通信開銷從50%降至10%。這表明,硬件性能需通過軟件棧深度適配才能轉(zhuǎn)化為實際效率。但目前國內(nèi)既懂芯片架構(gòu)又懂AI算法的復(fù)合型人才團隊仍顯不足。

系統(tǒng)級調(diào)優(yōu)是釋放硬件潛力的另一關(guān)鍵。科大訊飛AI工程院專家鮑中帥指出,國產(chǎn)單卡性能已對標英偉達A100,但萬卡以上集群的性能發(fā)揮依賴網(wǎng)絡(luò)與系統(tǒng)性調(diào)優(yōu)能力。國內(nèi)具備全棧調(diào)優(yōu)能力的廠商較少,這不僅是硬件比拼,更是系統(tǒng)工程與軟件實力的綜合較量。曙光提出的scaleX超集群與算存?zhèn)黢詈霞軜?gòu),試圖通過系統(tǒng)創(chuàng)新實現(xiàn)“1+1+1>3”的效果,但需全產(chǎn)業(yè)鏈協(xié)作。

在技術(shù)路線選擇上,國產(chǎn)算力面臨IB與以太網(wǎng)RoCE的分野。中科曙光scaleFabric選擇兼容IB生態(tài),因其“無損網(wǎng)絡(luò)”特性對RDMA性能至關(guān)重要。但部分行業(yè)專家認為,全球多數(shù)智算中心基于RoCE技術(shù),且互聯(lián)網(wǎng)企業(yè)已形成成熟的以太網(wǎng)架構(gòu),單獨部署IB會增加網(wǎng)絡(luò)復(fù)雜性。這種分歧源于用戶背景:超算領(lǐng)域習(xí)慣IB體系,而智算領(lǐng)域以互聯(lián)網(wǎng)企業(yè)為主,更傾向以太網(wǎng)。

這種雙軌格局對國產(chǎn)算力發(fā)展提出雙重挑戰(zhàn)。一方面,需支持不同算力芯片適配,形成開放生態(tài);另一方面,需解決增量部署的兼容性問題。例如,用戶若保留英偉達IB交換機僅替換國產(chǎn)網(wǎng)卡,可能因私有協(xié)議限制導(dǎo)致通信失敗。這凸顯了掌握自主核心技術(shù)的重要性。

國產(chǎn)算力正探索一條差異化發(fā)展路徑。與海外“暴力堆算力”不同,國內(nèi)通過提升算力效率、降低成本推動AI普惠,并依托電力優(yōu)勢與互聯(lián)技術(shù)追趕,實現(xiàn)“以系統(tǒng)優(yōu)勢彌補單點差異”。在軟件層面,國產(chǎn)廠商通過精細化優(yōu)化挖掘硬件潛力;在架構(gòu)層面,存算一體、重構(gòu)計算等新型架構(gòu)為突破海外限制提供新可能。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群