開源技術社區(qū)Coelacanth-Dream在代碼追蹤過程中發(fā)現(xiàn),AMD正為下一代RDNA 5 GPU架構部署突破性性能優(yōu)化方案。通過引入雙發(fā)射向量算術邏輯單元(Dual Issue VALU)與融合乘加(FMA)指令的協(xié)同設計,該架構在特定計算場景下有望實現(xiàn)理論性能的翻倍提升。
這項技術革新并非橫空出世。AMD早在RDNA 3/4架構中就已嘗試部署雙發(fā)射VALU設計,其原理類似于將傳統(tǒng)單車道收費站升級為雙車道——單個時鐘周期內可同時處理兩條浮點運算指令。但受限于編譯器技術瓶頸,前代產(chǎn)品始終無法充分發(fā)揮硬件潛力,實際性能提升遠低于預期。
新架構的突破性進展在于FMA指令的深度整合。這種特殊指令能夠自動識別并配對復雜的算術邏輯單元(ALU)操作,將原本需要分步執(zhí)行的乘加運算轉化為單周期指令流。配合雙發(fā)射VALU的并行處理能力,GPU可更高效地分配計算任務,確保兩個ALU通道始終處于滿載狀態(tài)。
技術文檔顯示,這種軟硬件協(xié)同優(yōu)化對傳統(tǒng)光柵化游戲具有顯著增益。在測試場景中,GPU的幀生成時間波動范圍縮小37%,平均幀率提升幅度達28%-45%。對于依賴單精度浮點運算的物理模擬、粒子系統(tǒng)等模塊,性能提升效果更為突出。
在AI計算領域,F(xiàn)MA指令的引入為AMD圖像超分技術(如FSR Diamond)和幀生成算法提供了底層支持。通過優(yōu)化矩陣運算的指令調度,新一代GPU在執(zhí)行神經(jīng)網(wǎng)絡推理任務時,可減少22%的寄存器訪問延遲,這對實時渲染場景中的動態(tài)分辨率調整至關重要。
值得注意的是,這項技術突破完全基于現(xiàn)有制程工藝的優(yōu)化,未涉及芯片面積或功耗的顯著增加。AMD工程師通過重構指令調度器的分支預測算法,成功解決了前代產(chǎn)品中存在的指令氣泡問題,使得雙發(fā)射架構的IPC(每時鐘周期指令數(shù))提升達到理論值的92%。























