谷歌發布第八代TPU：8t強訓8i快推，為AI智能體發展筑牢算力根基-汽車-智快網

谷歌發布第八代TPU：8t強訓8i快推，為AI智能體發展筑牢算力根基

發布時間：2026-04-23 12:05 來源：快訊作者：柳晴雪

在近期舉辦的 Cloud Next '26 峰會上，谷歌正式推出第八代 TPU 架構，包含專為訓練設計的 TPU 8t 和聚焦推理的 TPU 8i。這兩款芯片將于 2026 年下半年面向市場開放，采用申請制分配，Google Cloud 用戶需通過官網提交使用需求。目前原生 PyTorch 對 TPU 的支持處于預覽階段，谷歌正與特定合作伙伴及早期客戶開展小規模測試，以優化算力資源分配策略。

TPU 8t 通過多項技術創新重塑模型訓練格局。其搭載的 SparseCore 核心專為混合專家模型優化，可解決此類模型因參數不規則激活導致的內存訪問瓶頸。結合谷歌自研的 Virgo 網絡拓撲，芯片間通信帶寬翻倍，外部數據中心連接帶寬提升四倍。通過 Direct Storage 技術繞過 CPU 直接讀取高速存儲數據，訓練速度提升達十倍。在算力集群方面，單個超級計算單元集成 9600 顆 TPU 8t 芯片，共享 2PB 內存，總算力達 121 ExaFlops，單位成本算力較前代提升 2.7 倍，能效比實現兩倍增長。

針對實時推理場景，TPU 8i 通過硬件架構革新突破延遲限制。其配備的 288GB 高帶寬內存和 384MB 片上 SRAM（容量為前代三倍），可將完整對話上下文緩存于芯片內部，減少外部數據交互。集體通信加速引擎（CAE）將芯片同步延遲降低五倍，互聯帶寬提升至 19.2 Tb/s。新型 Boardfly 網絡拓撲借鑒 Dragonfly 架構思想，使千顆芯片系統中任意兩點通信路徑縮短 56%，從 16 跳減少至 7 跳。這些改進使推理任務性價比提升 80%，搭配谷歌自研 Arm Axion 架構 CPU 后，系統整體能效再獲顯著優化。

谷歌此次技術迭代精準回應了 AI 發展對芯片的差異化需求。訓練場景需要極致算力與高效協同，推理場景則要求低延遲與高能效。第八代 TPU 通過架構分型實現專業分工，TPU 8t 構建的超級計算集群可支撐千億參數模型訓練，TPU 8i 的長上下文處理能力則推動 AI 從簡單預測向復雜決策演進。隨著這兩款芯片向全球云客戶開放，開發者無需掌握新編程語言即可調用算力資源，谷歌提供的開源參考模型代碼將進一步降低技術門檻。這一布局或將重新定義智能體時代的算力基礎設施標準。

更多>同類內容