在AI算力需求持續(xù)攀升的背景下,國內(nèi)智算網(wǎng)絡(luò)領(lǐng)域迎來里程碑式突破。中科曙光近日宣布,其自主研發(fā)的400G無損高速網(wǎng)絡(luò)產(chǎn)品scaleFabric正式投入商用,標(biāo)志著我國在高端RDMA(遠(yuǎn)程直接內(nèi)存訪問)技術(shù)領(lǐng)域?qū)崿F(xiàn)從核心IP到系統(tǒng)架構(gòu)的全面自主可控。該產(chǎn)品已通過國家超算互聯(lián)網(wǎng)鄭州核心節(jié)點萬卡級集群驗證,為國產(chǎn)智算基礎(chǔ)設(shè)施注入關(guān)鍵動能。
當(dāng)前,全球智算集群正加速向萬卡級規(guī)模演進(jìn),網(wǎng)絡(luò)通信效率成為制約算力釋放的核心瓶頸。研究顯示,在千億參數(shù)級大模型訓(xùn)練中,跨節(jié)點通信耗時占比高達(dá)50%,傳統(tǒng)TCP/IP網(wǎng)絡(luò)已難以滿足超低延遲需求。作為全球主流方案,InfiniBand憑借零丟包、微秒級時延特性占據(jù)60%超算市場份額,但其產(chǎn)業(yè)鏈長期被海外企業(yè)壟斷,從112G SerDes IP到交換芯片等關(guān)鍵環(huán)節(jié)均存在技術(shù)壁壘。
中國工程院院士鄔賀銓在視頻致辭中強調(diào):"高速網(wǎng)絡(luò)是算力系統(tǒng)的神經(jīng)中樞,其自主化程度直接決定國家算力基礎(chǔ)設(shè)施的安全邊界。"面對技術(shù)封鎖與產(chǎn)業(yè)升級雙重壓力,scaleFabric的誕生恰逢其時。該系統(tǒng)采用全棧自研架構(gòu),涵蓋從底層硬件到上層管理軟件的全鏈條技術(shù),其中400G網(wǎng)卡實現(xiàn)0.9微秒端到端時延,交換機(jī)支持雙向64Tbps交換容量,關(guān)鍵指標(biāo)達(dá)到國際頂尖水平。
技術(shù)突破背后是多項創(chuàng)新機(jī)制的支撐。scaleFabric獨創(chuàng)的信用流控算法使鏈路故障恢復(fù)時間縮短至1毫秒內(nèi),較傳統(tǒng)方案提升10倍;通過動態(tài)QP(隊列對)資源分配技術(shù),單網(wǎng)卡支持QP數(shù)較英偉達(dá)NDR翻倍,單子網(wǎng)互連規(guī)模擴(kuò)展至11.4萬卡。在鄭州超算節(jié)點部署中,該系統(tǒng)成功支撐3萬卡集群穩(wěn)定運行超10個月,網(wǎng)絡(luò)總成本降低30%,驗證了其在超大規(guī)模場景下的可靠性。
中科曙光高級副總裁李斌透露,目前已有超過20家頭部AI企業(yè)參與scaleFabric生態(tài)共建,涵蓋芯片設(shè)計、模型訓(xùn)練、應(yīng)用開發(fā)等全產(chǎn)業(yè)鏈環(huán)節(jié)。隨著"人工智能+"戰(zhàn)略深入推進(jìn),國產(chǎn)智算網(wǎng)絡(luò)正從技術(shù)突破邁向產(chǎn)業(yè)生態(tài)構(gòu)建階段。此次突破不僅填補了國內(nèi)400G無損網(wǎng)絡(luò)空白,更通過"算-存-網(wǎng)"一體化方案,為國產(chǎn)AI大模型訓(xùn)練提供了系統(tǒng)級支撐平臺。





















