在近期舉辦的Arm Unlocked 2025峰會上,全球半導體IP領域領軍企業Arm正式推出面向旗艦智能手機及下一代個人電腦的Arm Lumex計算子系統(CSS)平臺。該平臺通過集成第二代可伸縮矩陣擴展(SME2)技術,為消費電子設備構建了端側AI計算的全新架構,標志著移動計算領域向智能化、高效化邁出關鍵一步。

作為平臺核心,C1 CPU集群首次將SME2技術深度融入Armv9.3架構,實現了AI性能五倍提升與能效三倍優化的突破。該技術通過動態矩陣擴展單元,使CPU在處理語音識別、實時翻譯等低延遲AI任務時,效率遠超傳統NPU架構。測試數據顯示,基于Whisper Base模型的語音處理延遲降低4.7倍,Google Gemma 3模型交互性能提升4.7倍,音頻生成速度提高2.8倍。這種性能躍升源于SME2為CPU額外提供的2-6 TOPS算力,有效解決了內存帶寬瓶頸問題。
為滿足不同市場層級需求,C1系列推出四款差異化核心:旗艦級C1-Ultra單線程性能較前代提升25%,延續Arm連續六年兩位數IPC增長的記錄;次旗艦C1-Premium在保持SPEC測試性能的同時,核心面積縮減35%;能效導向的C1-Pro在日常應用中實現16%持續性能提升與12%能效優化;超低功耗的C1-Nano則將能效提升26%,面積縮小2%,特別適配可穿戴設備。所有核心均可通過優化后的C1-DSU單元靈活組合,最多支持14核集群,功耗較前代降低26%。
圖形處理領域,Mali G1-Ultra GPU通過三大技術突破重塑移動體驗。第二代光線追蹤單元(RTUv2)實現性能翻倍,采用單光線模型與獨立電源域設計,在《暗區突圍》《原神》等游戲中帶來25%-26%的性能提升,硬件光追幀率提升40%。AI加速方面,新增的FP16矩陣乘法指令使語義分割、物體檢測等任務推理速度提升20%-104%。架構創新包括雙堆疊著色器核心、快速統一寄存器訪問等設計,配合Arm圖像區域依賴調度技術,顯著提升復雜場景渲染效率。

為構建完整技術生態,Arm同步推出Mali G1系列GPU,提供1-24個著色器核心的靈活配置方案。該系列支持基于塊的硬件計數器與RenderDoc調試工具,集成精銳超級分辨率技術(ASR),可在虛幻引擎5中實現時域超分處理。更值得關注的是,Arm宣布2026年將在GPU中引入神經技術模塊,通過專用硬件加速超級采樣與降噪任務,延續桌面級GPU從通用渲染到專用加速的演進路徑。
軟件生態層面,KleidiAI軟件庫成為打通硬件創新與應用落地的關鍵橋梁。該免費庫深度集成PyTorch ExecuTorch、Google LiteRT等主流AI框架,開發者無需修改代碼即可自動調用SME2加速能力。目前KleidiAI在Arm設備上的安裝量已突破80億次,安卓平臺通過XNNPack庫實現加速,Windows on Arm則依托ONNX Runtime框架優化Copilot等核心應用。這種"一次開發,多端加速"的模式,有效解決了新硬件推廣的生態適配難題。
從異構計算架構重構到3納米工藝優化,從硬件性能突破到軟件生態賦能,Arm Lumex CSS平臺展現了半導體IP供應商向系統級解決方案轉型的戰略決心。通過預驗證的計算子系統交付模式,該平臺幫助合作伙伴將產品上市周期縮短30%以上,同時為桌面級移動游戲、實時AI助手等創新應用提供了性能保障。隨著端側AI需求持續爆發,這一平臺有望成為下一代智能設備的核心基礎設施。























