大型語言模型(LLM)在處理長對話時,常因內(nèi)存占用過高而面臨性能瓶頸。NVIDIA研究人員近日提出一項名為KVTC(KV快取轉(zhuǎn)換編碼)的創(chuàng)新技術(shù),通過高效壓縮模型推理過程中的KV緩存,將內(nèi)存需求最高降低20倍,同時無需修改現(xiàn)有模型架構(gòu)。這一突破有望顯著降低企業(yè)部署AI的硬件成本,并提升模型響應(yīng)速度。
KV緩存是LLM的“短期記憶”,存儲對話歷史中的關(guān)鍵信息(Key和Value),使模型無需重復(fù)計算已處理內(nèi)容。然而,隨著對話長度增加,KV緩存可能膨脹至數(shù)GB,占用大量GPU內(nèi)存,導(dǎo)致推理速度下降甚至系統(tǒng)卡頓。NVIDIA資深深度學(xué)習(xí)工程師Adrian Lancucki指出:“LLM推理的性能瓶頸通常不在計算能力,而在于GPU內(nèi)存的有限性。傳統(tǒng)方法需將閑置緩存轉(zhuǎn)移至CPU或硬盤,但數(shù)據(jù)傳輸會引入額外延遲。”
KVTC技術(shù)借鑒JPEG圖像壓縮原理,通過“主成分分析、自適應(yīng)量化、熵編碼”三步流程,精準(zhǔn)捕捉KV緩存中數(shù)據(jù)的高度相關(guān)性,剔除冗余信息。其“非侵入式”設(shè)計允許企業(yè)直接集成至現(xiàn)有系統(tǒng),無需調(diào)整模型代碼或參數(shù)。實驗數(shù)據(jù)顯示,在參數(shù)量從15億至700億的模型(如Llama 3系列、R1-Qwen 2.5)中,KVTC將內(nèi)存壓縮20倍后,模型準(zhǔn)確率損失不足1%,而傳統(tǒng)方法僅壓縮5倍便會導(dǎo)致顯著性能下降。
在H100 GPU的實測中,處理8000個Token的提示時,啟用KVTC后模型首次響應(yīng)時間從3秒縮短至380毫秒,提速達(dá)8倍。這一優(yōu)勢在編程助手、迭代式推理等長對話場景中尤為突出,而短對話場景因緩存規(guī)模較小,壓縮效果相對有限。
NVIDIA計劃將KVTC整合至Dynamo框架的KV塊管理器,并兼容vLLM等主流開源推理引擎。業(yè)內(nèi)分析認(rèn)為,隨著LLM對話長度持續(xù)增加,標(biāo)準(zhǔn)化壓縮技術(shù)或?qū)⒊蔀锳I落地的關(guān)鍵基礎(chǔ)設(shè)施,其普及程度可能類比于視頻壓縮技術(shù)對多媒體行業(yè)的影響。























