AI芯片“分工”時刻來臨!谷歌第八代TPU為什么要拆分成兩款獨(dú)立芯片?
關(guān)鍵詞: Google TPU AI芯片 英偉達(dá)
在周三 (22 日) 舉行的 Google Cloud Next 2026 大會上,谷歌(GOOGL-US) 正式發(fā)布其第八代張量處理器 (TPU) 的兩款全新產(chǎn)品,專為 AI 模型訓(xùn)練設(shè)計的 TPU 8t 與專為推理優(yōu)化的 TPU 8i,這是谷歌史上首次將訓(xùn)練與推理任務(wù)拆分至獨(dú)立芯片,標(biāo)志著其 AI 硬體策略的重大轉(zhuǎn)向。
谷歌兩款芯片均打算在今年稍晚正式對外供應(yīng),旨在透過專項優(yōu)化應(yīng)對日益分化的 AI 工作負(fù)載,并以更具成本效益的方式提供大規(guī)模吞吐量和低延遲,滿足數(shù)百萬個 AI 智能體同時運(yùn)行的需求。
谷歌此次戰(zhàn)略調(diào)整是對 AI 計算特性分化的直接回應(yīng)。隨著 AI 智能體興起,預(yù)訓(xùn)練、后訓(xùn)練與即時推理在運(yùn)算需求上已顯著不同;訓(xùn)練任務(wù)追求極致的吞吐量與規(guī)模擴(kuò)展,而推理任務(wù)則對延遲和并發(fā)更為敏感。
谷歌資深副總裁兼 AI 與基礎(chǔ)設(shè)施技術(shù)長 Amin Vahdat 指出,業(yè)界將受惠于針對這兩類需求專門優(yōu)化的芯片。
Alphabet 執(zhí)行長皮查伊也強(qiáng)調(diào),這項架構(gòu)旨在以低成本提供大規(guī)模算力。從市場角度來看,統(tǒng)一芯片往往導(dǎo)致某一場景下的資源浪費(fèi),而雙芯片策略能顯著提升價格效能比,降低云端 AI 基礎(chǔ)設(shè)施的整體擁有成本。
在效能數(shù)據(jù)上,第八代 TPU 相比去年 11 月發(fā)布的第七代 Ironwood 有了巨大飛躍。 TPU 8t 在同等價格下效能提升 2.8 倍,TPU 8i 效能提升 80%,兩款芯片的能源效率表現(xiàn)特別亮眼,
此外,每瓦效能均較上一代提升逾一倍,其中 TPU 8t 達(dá)到 124%,TPU 8i 達(dá)到 117%,兩款芯片均整合了基于安謀架構(gòu)的 Axion CPU,以消除資料預(yù)處理延遲造成的主機(jī)側(cè)瓶頸,確保 TPU 運(yùn)算單位持續(xù)滿載運(yùn)作。第八代 TPU 延續(xù)了成熟的軟體體系,支援 JAX、PyTorch、Keras 及 vLLM 等主流框架,原生 PyTorch 支援現(xiàn)已進(jìn)入預(yù)覽階段,使用者可直接遷移模型而無需修改程式碼。
TPU 8t 定位為超大規(guī)模訓(xùn)練的算力引擎,號稱能將前沿模型的開發(fā)周期從數(shù)月壓縮至數(shù)周。
在規(guī)模上,它最多可將 9600 塊芯片組合為單一超級運(yùn)算節(jié)點(diǎn),并透過 JAX 與 Pathways 框架將分散式訓(xùn)練擴(kuò)展至單一集群超過 100 萬塊芯片,其核心技術(shù)創(chuàng)新包括:專門處理嵌入查找的 SparseCore 加速器、原生 FP4 支援 (使 MXU 吞吐量翻倍并降低能耗),以及更均衡的向量處理單元擴(kuò)展設(shè)計。
網(wǎng)路層面引進(jìn)了全新的 Virgo 架構(gòu),數(shù)據(jù)中心網(wǎng)路頻寬提升最高 4 倍,芯片間互聯(lián)頻寬提升 2 倍,單一網(wǎng)路可連接逾 13.4 萬個芯片。
儲存方面則透過 TPUDirect 技術(shù)繞過 CPU 直接傳輸數(shù)據(jù),存取速度提升 10 倍,確保處理大規(guī)模多模態(tài)資料集時算力不閑置。
TPU 8i 則面向高并發(fā)推理場景,重心在于降低延遲與提升并發(fā)處理能力,其最顯著的硬體特征是整合了 384MB 靜態(tài)隨機(jī)存取存儲器,容量是上一代的三倍,可將更大的 KV Cache 保留在片上,大幅減少長上下文解碼的等待時間。
此外,它引入了集合加速引擎 (CAE),專門加速自回歸解碼與思維鏈處理,使片上集合操作延遲降低 5 倍。
在網(wǎng)路拓?fù)渖?,TPU 8i 放棄了傳統(tǒng)的 3D 環(huán)面結(jié)構(gòu),轉(zhuǎn)而采用全新的 Boardfly 互聯(lián)拓?fù)?,將最大跳?shù)壓縮至 7 跳,全對全通訊延遲改善最高 50%,這對混合專家模型和頻繁的跨芯片令牌路由極為有利。TPU 8i 的 Pod 規(guī)模可擴(kuò)展至 1152 塊芯片,透過光學(xué)電路交換器實(shí)現(xiàn)組間互聯(lián)。
此次發(fā)布不僅展示谷歌在芯片設(shè)計上的技術(shù)深度,也反映其供應(yīng)鏈策略的調(diào)整。
TPU 8t 由博通共同設(shè)計,主打極致性能,TPU 8i 則首次牽手聯(lián)發(fā)科,旨在優(yōu)化成本與效率。
《華爾街見聞》報導(dǎo)指出,這種雙軌策略不僅讓谷歌能分別針對訓(xùn)練和推理做深度定制,實(shí)現(xiàn)性能與成本的最優(yōu)解,也透過多供應(yīng)商布局打破了單一供應(yīng)源的溢價與產(chǎn)能風(fēng)險。
隨著 AI 算力重心從訓(xùn)練全面轉(zhuǎn)向推理,谷歌憑藉這一軟硬一體的全端布局,正試圖在英偉達(dá) (NVDA-US) 主導(dǎo)的市場中,透過極致性價比和專用化設(shè)計搶占更多企業(yè)級 AI 市占率。