AI芯片“分工”時刻來臨！谷歌第八代TPU為什么要拆分成兩款獨(dú)立芯片？

2026-04-23 來源：鉅亨網(wǎng)

349

在周三 (22 日) 舉行的 Google Cloud Next 2026 大會上，谷歌(GOOGL-US) 正式發(fā)布其第八代張量處理器 (TPU) 的兩款全新產(chǎn)品，專為 AI 模型訓(xùn)練設(shè)計的 TPU 8t 與專為推理優(yōu)化的 TPU 8i，這是谷歌史上首次將訓(xùn)練與推理任務(wù)拆分至獨(dú)立芯片，標(biāo)志著其 AI 硬體策略的重大轉(zhuǎn)向。

谷歌兩款芯片均打算在今年稍晚正式對外供應(yīng)，旨在透過專項優(yōu)化應(yīng)對日益分化的 AI 工作負(fù)載，并以更具成本效益的方式提供大規(guī)模吞吐量和低延遲，滿足數(shù)百萬個 AI 智能體同時運(yùn)行的需求。

谷歌此次戰(zhàn)略調(diào)整是對 AI 計算特性分化的直接回應(yīng)。隨著 AI 智能體興起，預(yù)訓(xùn)練、后訓(xùn)練與即時推理在運(yùn)算需求上已顯著不同；訓(xùn)練任務(wù)追求極致的吞吐量與規(guī)模擴(kuò)展，而推理任務(wù)則對延遲和并發(fā)更為敏感。

谷歌資深副總裁兼 AI 與基礎(chǔ)設(shè)施技術(shù)長 Amin Vahdat 指出，業(yè)界將受惠于針對這兩類需求專門優(yōu)化的芯片。

Alphabet 執(zhí)行長皮查伊也強(qiáng)調(diào)，這項架構(gòu)旨在以低成本提供大規(guī)模算力。從市場角度來看，統(tǒng)一芯片往往導(dǎo)致某一場景下的資源浪費(fèi)，而雙芯片策略能顯著提升價格效能比，降低云端 AI 基礎(chǔ)設(shè)施的整體擁有成本。

在效能數(shù)據(jù)上，第八代 TPU 相比去年 11 月發(fā)布的第七代 Ironwood 有了巨大飛躍。 TPU 8t 在同等價格下效能提升 2.8 倍，TPU 8i 效能提升 80%，兩款芯片的能源效率表現(xiàn)特別亮眼，

此外，每瓦效能均較上一代提升逾一倍，其中 TPU 8t 達(dá)到 124%，TPU 8i 達(dá)到 117%，兩款芯片均整合了基于安謀架構(gòu)的 Axion CPU，以消除資料預(yù)處理延遲造成的主機(jī)側(cè)瓶頸，確保 TPU 運(yùn)算單位持續(xù)滿載運(yùn)作。第八代 TPU 延續(xù)了成熟的軟體體系，支援 JAX、PyTorch、Keras 及 vLLM 等主流框架，原生 PyTorch 支援現(xiàn)已進(jìn)入預(yù)覽階段，使用者可直接遷移模型而無需修改程式碼。

TPU 8t 定位為超大規(guī)模訓(xùn)練的算力引擎，號稱能將前沿模型的開發(fā)周期從數(shù)月壓縮至數(shù)周。

在規(guī)模上，它最多可將 9600 塊芯片組合為單一超級運(yùn)算節(jié)點(diǎn)，并透過 JAX 與 Pathways 框架將分散式訓(xùn)練擴(kuò)展至單一集群超過 100 萬塊芯片，其核心技術(shù)創(chuàng)新包括：專門處理嵌入查找的 SparseCore 加速器、原生 FP4 支援 (使 MXU 吞吐量翻倍并降低能耗)，以及更均衡的向量處理單元擴(kuò)展設(shè)計。

網(wǎng)路層面引進(jìn)了全新的 Virgo 架構(gòu)，數(shù)據(jù)中心網(wǎng)路頻寬提升最高 4 倍，芯片間互聯(lián)頻寬提升 2 倍，單一網(wǎng)路可連接逾 13.4 萬個芯片。

儲存方面則透過 TPUDirect 技術(shù)繞過 CPU 直接傳輸數(shù)據(jù)，存取速度提升 10 倍，確保處理大規(guī)模多模態(tài)資料集時算力不閑置。

TPU 8i 則面向高并發(fā)推理場景，重心在于降低延遲與提升并發(fā)處理能力，其最顯著的硬體特征是整合了 384MB 靜態(tài)隨機(jī)存取存儲器，容量是上一代的三倍，可將更大的 KV Cache 保留在片上，大幅減少長上下文解碼的等待時間。

此外，它引入了集合加速引擎 (CAE)，專門加速自回歸解碼與思維鏈處理，使片上集合操作延遲降低 5 倍。

在網(wǎng)路拓?fù)渖?，TPU 8i 放棄了傳統(tǒng)的 3D 環(huán)面結(jié)構(gòu)，轉(zhuǎn)而采用全新的 Boardfly 互聯(lián)拓?fù)?，將最大跳?shù)壓縮至 7 跳，全對全通訊延遲改善最高 50%，這對混合專家模型和頻繁的跨芯片令牌路由極為有利。TPU 8i 的 Pod 規(guī)模可擴(kuò)展至 1152 塊芯片，透過光學(xué)電路交換器實(shí)現(xiàn)組間互聯(lián)。

此次發(fā)布不僅展示谷歌在芯片設(shè)計上的技術(shù)深度，也反映其供應(yīng)鏈策略的調(diào)整。

TPU 8t 由博通共同設(shè)計，主打極致性能，TPU 8i 則首次牽手聯(lián)發(fā)科，旨在優(yōu)化成本與效率。

《華爾街見聞》報導(dǎo)指出，這種雙軌策略不僅讓谷歌能分別針對訓(xùn)練和推理做深度定制，實(shí)現(xiàn)性能與成本的最優(yōu)解，也透過多供應(yīng)商布局打破了單一供應(yīng)源的溢價與產(chǎn)能風(fēng)險。

隨著 AI 算力重心從訓(xùn)練全面轉(zhuǎn)向推理，谷歌憑藉這一軟硬一體的全端布局，正試圖在英偉達(dá) (NVDA-US) 主導(dǎo)的市場中，透過極致性價比和專用化設(shè)計搶占更多企業(yè)級 AI 市占率。