近日,DeepSeek團(tuán)隊(duì)聯(lián)合北京大學(xué)發(fā)布了一項(xiàng)突破性研究,提出了一種名為Engram的創(chuàng)新模塊,旨在解決Transformer架構(gòu)中長期存在的記憶瓶頸問題。該研究通過引入條件記憶機(jī)制,使模型在保持計(jì)算效率的同時(shí)顯著提升了知識存儲與檢索能力,為大語言模型(LLM)的發(fā)展開辟了新路徑。
當(dāng)前主流的稀疏模型架構(gòu),如混合專家模型(MoE),雖通過條件計(jì)算降低了計(jì)算成本,但仍依賴大量參數(shù)模擬知識檢索過程,導(dǎo)致效率低下。研究團(tuán)隊(duì)指出,Transformer缺乏原生知識查找機(jī)制,使得許多本應(yīng)通過簡單檢索完成的任務(wù)被迫依賴復(fù)雜計(jì)算,既浪費(fèi)資源又限制性能。針對這一問題,Engram模塊通過將靜態(tài)模式存儲與動態(tài)計(jì)算分離,為模型提供了近似O(1)復(fù)雜度的確定性知識查找能力。
Engram的核心設(shè)計(jì)包含兩大關(guān)鍵組件:基于哈希N-gram的稀疏檢索機(jī)制和上下文感知門控系統(tǒng)。前者通過分詞器壓縮和確定性哈希函數(shù),將局部上下文映射至預(yù)存儲的記憶條目;后者則利用動態(tài)查詢與記憶嵌入的交互,解決哈希沖突和多義詞干擾問題。實(shí)驗(yàn)表明,該模塊在實(shí)體識別、固定短語匹配等任務(wù)中表現(xiàn)出高度選擇性激活,且行為可跨語言泛化。
研究團(tuán)隊(duì)通過系統(tǒng)實(shí)驗(yàn)驗(yàn)證了Engram與MoE的互補(bǔ)性。他們發(fā)現(xiàn),當(dāng)模型總參數(shù)固定時(shí),合理分配MoE計(jì)算資源與Engram記憶容量存在最優(yōu)比例,形成獨(dú)特的"U型擴(kuò)展法則"。在270億參數(shù)規(guī)模下,Engram架構(gòu)模型在嚴(yán)格等參數(shù)、等計(jì)算量條件下,較純MoE基線在知識密集型任務(wù)(MMLU、CMMLU)中提升達(dá)4%,在推理、代碼和數(shù)學(xué)任務(wù)(BBH、Humaneval、GSM8K)中提升更顯著,最高達(dá)5%。
長上下文處理能力是Engram的另一重要優(yōu)勢。通過將局部依賴建模任務(wù)卸載至靜態(tài)查找模塊,模型得以保留更多注意力資源處理全局信息。在32K上下文窗口的實(shí)驗(yàn)中,Engram架構(gòu)模型在長程檢索和推理任務(wù)上展現(xiàn)出顯著優(yōu)勢,尤其在等損失和等計(jì)算量設(shè)定下,性能全面超越MoE基線,甚至在僅使用82%計(jì)算量的極端設(shè)定下仍保持競爭力。
該研究的工程價(jià)值同樣突出。Engram的確定性檢索機(jī)制支持參數(shù)存儲與計(jì)算資源的解耦,為模型優(yōu)化提供了新思路。訓(xùn)練階段可采用標(biāo)準(zhǔn)模型并行策略處理大規(guī)模嵌入表;推理階段則可通過預(yù)取和重疊策略提升效率。這種設(shè)計(jì)使得模型在擴(kuò)展內(nèi)存容量時(shí)無需增加計(jì)算成本,為構(gòu)建更大參數(shù)、更高吞吐的LLM提供了可行路徑。
據(jù)悉,該研究主要由北京大學(xué)博士生Xin Cheng領(lǐng)銜完成。作為自然語言處理領(lǐng)域的新銳研究者,Xin Cheng已在NeurIPS、ACL等頂級會議發(fā)表多篇一作論文,專注于大語言模型與檢索增強(qiáng)生成技術(shù)研究。此次提出的Engram架構(gòu),已被業(yè)界視為稀疏模型發(fā)展的重要里程碑,有望在下一代模型中得到廣泛應(yīng)用。




















