新年伊始,AI技術(shù)領(lǐng)域迎來(lái)一項(xiàng)重要突破——DeepSeek團(tuán)隊(duì)悄然發(fā)布了一篇關(guān)于大模型訓(xùn)練架構(gòu)的學(xué)術(shù)論文。這篇未經(jīng)過(guò)大規(guī)模宣傳的論文,憑借其創(chuàng)新性設(shè)計(jì)迅速引發(fā)行業(yè)關(guān)注,核心內(nèi)容圍繞一種名為mHC的新型架構(gòu)展開(kāi)。
傳統(tǒng)大模型訓(xùn)練常被比作信息處理工廠,其中殘差連接如同工廠中的傳送帶。早期采用單通道設(shè)計(jì)的傳送帶雖能保證信息完整傳遞,但隨著模型規(guī)模擴(kuò)大,單通道逐漸暴露出信息擁堵問(wèn)題。字節(jié)跳動(dòng)團(tuán)隊(duì)此前提出的超連接方案試圖通過(guò)多通道設(shè)計(jì)突破瓶頸,但新架構(gòu)在缺乏統(tǒng)一調(diào)度機(jī)制的情況下,導(dǎo)致信息傳輸過(guò)程中出現(xiàn)失衡現(xiàn)象,甚至引發(fā)梯度爆炸等訓(xùn)練崩潰問(wèn)題。
DeepSeek團(tuán)隊(duì)提出的mHC架構(gòu)針對(duì)這一痛點(diǎn)展開(kāi)創(chuàng)新。該架構(gòu)并非簡(jiǎn)單否定多通道設(shè)計(jì),而是引入基于Sinkhorn-Knopp算法的智能調(diào)度系統(tǒng)。通過(guò)將連接矩陣約束在雙擬隨機(jī)矩陣的流形上,確保信息傳輸過(guò)程中能量守恒,避免出現(xiàn)信號(hào)異常放大或衰減。研究團(tuán)隊(duì)還對(duì)輸入輸出映射施加非負(fù)約束,防止正負(fù)系數(shù)相互抵消導(dǎo)致有效信號(hào)丟失。
在基礎(chǔ)設(shè)施優(yōu)化方面,研究團(tuán)隊(duì)通過(guò)算子融合技術(shù)將多個(gè)計(jì)算步驟整合,顯著減少內(nèi)存讀寫次數(shù)。同時(shí)采用重計(jì)算策略,在反向傳播階段重新生成中間數(shù)據(jù),有效降低內(nèi)存占用。實(shí)驗(yàn)數(shù)據(jù)顯示,在4倍擴(kuò)展倍率下,訓(xùn)練時(shí)間僅小幅增加,但穩(wěn)定性得到質(zhì)的提升。
實(shí)證研究環(huán)節(jié),團(tuán)隊(duì)使用不同規(guī)模模型進(jìn)行測(cè)試,重點(diǎn)驗(yàn)證270億參數(shù)模型的表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,mHC架構(gòu)成功解決了超連接方案的訓(xùn)練不穩(wěn)定問(wèn)題,最終損失值較傳統(tǒng)基線模型降低12%。在下游任務(wù)測(cè)試中,新架構(gòu)在推理類任務(wù)上展現(xiàn)出顯著優(yōu)勢(shì),性能提升幅度達(dá)5個(gè)百分點(diǎn)。規(guī)模擴(kuò)展實(shí)驗(yàn)進(jìn)一步證明,從30億到270億參數(shù)的模型訓(xùn)練中,mHC的性能優(yōu)勢(shì)始終保持穩(wěn)定。
這項(xiàng)研究的意義不僅限于技術(shù)突破。傳統(tǒng)大模型訓(xùn)練因成本高昂、穩(wěn)定性差,將眾多中小企業(yè)擋在門外。mHC架構(gòu)通過(guò)平衡性能、穩(wěn)定性與成本三要素,為行業(yè)提供了新的發(fā)展路徑。其改良式創(chuàng)新思路,或?qū)⑼苿?dòng)更多企業(yè)參與大規(guī)模模型研發(fā),促進(jìn)AI技術(shù)生態(tài)的多元化發(fā)展。






















