Arm Lumex計算子系統平臺：端側AI異構計算新范式，3納米工藝下的智能新引擎-熱點-智快網

Arm Lumex計算子系統平臺：端側AI異構計算新范式，3納米工藝下的智能新引擎

發布時間：2025-09-13 22:58 來源：ITBEAR 作者：趙云飛

在近期舉辦的Arm Unlocked 2025峰會上，全球半導體IP領域領軍企業Arm正式推出面向旗艦智能手機及下一代個人電腦的Arm Lumex計算子系統（CSS）平臺。該平臺通過集成第二代可伸縮矩陣擴展（SME2）技術，為消費電子設備構建了端側AI計算的全新架構，標志著移動計算領域向智能化、高效化邁出關鍵一步。

作為平臺核心，C1 CPU集群首次將SME2技術深度融入Armv9.3架構，實現了AI性能五倍提升與能效三倍優化的突破。該技術通過動態矩陣擴展單元，使CPU在處理語音識別、實時翻譯等低延遲AI任務時，效率遠超傳統NPU架構。測試數據顯示，基于Whisper Base模型的語音處理延遲降低4.7倍，Google Gemma 3模型交互性能提升4.7倍，音頻生成速度提高2.8倍。這種性能躍升源于SME2為CPU額外提供的2-6 TOPS算力，有效解決了內存帶寬瓶頸問題。

為滿足不同市場層級需求，C1系列推出四款差異化核心：旗艦級C1-Ultra單線程性能較前代提升25%，延續Arm連續六年兩位數IPC增長的記錄；次旗艦C1-Premium在保持SPEC測試性能的同時，核心面積縮減35%；能效導向的C1-Pro在日常應用中實現16%持續性能提升與12%能效優化；超低功耗的C1-Nano則將能效提升26%，面積縮小2%，特別適配可穿戴設備。所有核心均可通過優化后的C1-DSU單元靈活組合，最多支持14核集群，功耗較前代降低26%。

圖形處理領域，Mali G1-Ultra GPU通過三大技術突破重塑移動體驗。第二代光線追蹤單元（RTUv2）實現性能翻倍，采用單光線模型與獨立電源域設計，在《暗區突圍》《原神》等游戲中帶來25%-26%的性能提升，硬件光追幀率提升40%。AI加速方面，新增的FP16矩陣乘法指令使語義分割、物體檢測等任務推理速度提升20%-104%。架構創新包括雙堆疊著色器核心、快速統一寄存器訪問等設計，配合Arm圖像區域依賴調度技術，顯著提升復雜場景渲染效率。

為構建完整技術生態，Arm同步推出Mali G1系列GPU，提供1-24個著色器核心的靈活配置方案。該系列支持基于塊的硬件計數器與RenderDoc調試工具，集成精銳超級分辨率技術（ASR），可在虛幻引擎5中實現時域超分處理。更值得關注的是，Arm宣布2026年將在GPU中引入神經技術模塊，通過專用硬件加速超級采樣與降噪任務，延續桌面級GPU從通用渲染到專用加速的演進路徑。

軟件生態層面，KleidiAI軟件庫成為打通硬件創新與應用落地的關鍵橋梁。該免費庫深度集成PyTorch ExecuTorch、Google LiteRT等主流AI框架，開發者無需修改代碼即可自動調用SME2加速能力。目前KleidiAI在Arm設備上的安裝量已突破80億次，安卓平臺通過XNNPack庫實現加速，Windows on Arm則依托ONNX Runtime框架優化Copilot等核心應用。這種"一次開發，多端加速"的模式，有效解決了新硬件推廣的生態適配難題。

從異構計算架構重構到3納米工藝優化，從硬件性能突破到軟件生態賦能，Arm Lumex CSS平臺展現了半導體IP供應商向系統級解決方案轉型的戰略決心。通過預驗證的計算子系統交付模式，該平臺幫助合作伙伴將產品上市周期縮短30%以上，同時為桌面級移動游戲、實時AI助手等創新應用提供了性能保障。隨著端側AI需求持續爆發，這一平臺有望成為下一代智能設備的核心基礎設施。

更多>同類內容