現今的先進模型,包括 Google 的 Gemini、Veo、Imagen,以及 Anthropic 的 Claude,都在 Tensor Processing Unit(TPU)上進行訓練和提供服務。對許多企業而言,其重心正從訓練模型,轉移到如何促成與模型之間有著實用且靈敏的互動。
模型架構的不斷演進、代理式工作流程 (agentic workflows) 的興起,加上對運算需求近乎指數型的增長,共同定義了這個全新的 AI 推論時代(age of inference)。特別是那些需要通用運算 (general-purpose compute) 和機器學習加速 (ML acceleration) 之間高度協作與調度的代理式工作流程,正為客製化晶片和垂直協同最佳化(vertically co-optimized)的系統架構創造新的機會。
我們為此轉變已做足準備,現在,我們宣布推出三款基於客製化晶片打造的新產品,為推論和代理式工作負載提供卓越的效能、更低的成本並實現嶄新功能:
- ● Ironwood:我們的第七代 TPU,將在未來幾週內正式推出。Ironwood 專為最嚴苛的工作負載而打造:從大規模模型訓練、複雜的增強學習(RL),到高容量、低延遲的 AI 推論和模型服務。與 TPU v5p 相比,它的峰值效能提升了 10 倍;與 TPU v6e(Trillium)相比,每顆晶片在訓練與推論工作負載上的效能提升超過 4 倍,使 Ironwood 成為我們迄今最強大、最節能的客製化晶片。
- ● 全新 ARM® 架構 Axion 執行個體:N4A,我們迄今最具成本效益的 N 系列虛擬機器,現已推出預覽版。相較於當前同等級的 x86 虛擬機器,N4A 提供了高達 2 倍的性價比。
- ● 我們也很高興地宣布 C4A metal,我們首款 ARM® 架構裸機執行個體(bare-meta instance),即將推出預覽版。
Ironwood 和這些全新的 Axion 執行個體,是 Google 長期耕耘客製化晶片創新的最新篇章,其他還包括 TPU、YouTube 的影片編碼單元(Video Coding Units, VCU),以及適用於行動裝置的 Tensor G5 自研晶片。在每個案例中,我們打造這些處理器的目的都是為了實現效能突破,而這一切唯有透過深度的系統級協同設計,將模型研究、軟體和硬體開發整合在一起才可能達成。
十年前我們就是這樣打造出第一代 TPU,而 TPU 進而在八年前造就了驅動當今絕大多數 AI 的核心架構──Transformer 的誕生。這也影響了我們近期的發展,例如 Titanium,以及我們自 2020 年以來已在十億瓦(GW)的規模上部署,並達到 99.999% 機群運作時間(fleet-wide uptime)的先進液冷解決方案。


Ironwood:從模型訓練到全球規模推論的最快路徑
Ironwood 在初期就獲得非常熱烈的迴響,像是 Anthropic 即深受 Ironwood 卓越的性價比所吸引,這項優勢加速了他們將龐大的 Claude 模型從訓練推向服務數百萬用戶的進程。實際上,Anthropic 計畫使用多達 100 萬個 TPU:
Anthropic 運算主管 James Bradbury:「我們的客戶,從《財星》(Fortune)世界五百強企業到新創公司,都仰賴 Claude 來處理他們最重要的工作。隨著需求持續指數型成長,我們在推動 AI 研究和產品開發的邊界擴展時,也在增加我們的運算資源。Ironwood 在推論效能和訓練可擴展性上的提升,將幫助我們高效擴展,同時滿足客戶期望的速度和可靠性。」

不論企業規模大小,Ironwood 正在各產業中被廣泛使用:
Lightricks 研究團隊總監 Yoav HaCohen:「Lightricks 的使命是定義開放式創意的尖端,而這需要能在大規模上消除摩擦與成本的 AI 基礎架構。我們利用 Google Cloud 的 TPU 及其龐大的晶片間互連網路(Interchip Interconnect, ICI),為我們領先的開源多模態生成模型 LTX-2 實現了突破性的訓練效率。現在,隨著進入推論時代,這個早期測試讓我們對 Ironwood 充滿期待。我們相信 Ironwood 將使我們能夠為全球數百萬客戶創造更細膩、更精確、更高擬真度的圖像和影片生成。」

Essential AI 基礎架構負責人 Philip Monk:「在 Essential AI,我們的使命是打造強大且開放的頂尖模型。我們需要大規模且高效的擴展能力,而 Google Cloud 的 Ironwood TPU 正好滿足了這一需求。這個平台極易上手,讓我們的工程師能立即發揮其強大能力,並專注於加速 AI 的突破。」

系統級設計最大化推論效能、可靠性與成本效益
TPU 是 AI Hypercomputer 的關鍵組件,AI Hypercomputer 是我們的整合式超級運算系統,它匯集了運算、網路、儲存和軟體,以提高系統級的效能和效率。根據 IDC 最近的一份報告,導入 AI Hypercomputer 的客戶平均達成了 353% 的三年投資報酬率、降低 28% 的 IT 成本,並使 IT 團隊效率提升 55%。
Ironwood TPU 將幫助客戶進一步突破規模和效率的極限。部署 TPU 時,系統會將每個獨立的晶片相互連結,形成一個 Pod,使這些互連的 TPU 能作為單一運作的運算單元。透過 Ironwood,我們可以在單一個 superpod 中擴展至 9,216 個晶片,並透過突破性的 ICI 網路達到 9.6 TB/s 的傳輸速度。這種大規模的連接性使數千個晶片能夠快速相互通訊,並存取高達 1.77 PB 的共享高頻寬記憶體(HBM),即便是對性能要求最高的模型資料瓶頸也能克服。

在如此大規模下,服務需要持續穩定的可用性。這就是為什麼我們的光學電路交換(Optical Circuit Switching, OCS)技術能作為一個動態、可重組的結構,能夠即時繞過中斷,恢復工作負載,同時讓服務保持運行。當需要更多效能時,Ironwood 可以在 Pod 間擴展,形成數十萬個 TPU 的叢集。

AI Hypercomputer的優勢:軟硬體協同設計,實現更快、更高效的成果
在這套硬體之上,是一個協同設計的軟體層架構,我們的目標是最大化 Ironwood 強大的運算處理能力和記憶體效能,並使其在整個 AI 生命週期中都能夠易於使用。
- ● 為了提高系統效率和營運能力,我們很高興地宣布,TPU 客戶現在可以受益於 Google Kubernetes Engine(GKE)中的 Cluster Director 功能。這包括進階維運(advanced maintenance)、拓撲感知(topology awareness),可用於實現智慧調度和高彈性叢集。
- ● 在模型預前訓練和後續訓練方面,我們也分享了高效能、開源的 LLM 框架 MaxText 新的強化功能,使其更容易實作最新的訓練和強化學習優化技術,例如監督式微調(Supervised Fine-Tuning, SFT)功能和生成式增強策略優化(Generative Reinforcement Policy Optimization, GRPO)。
- ● 在推論方面,我們最近宣布了 vLLM 中對 TPU 的強化支援,允許開發者僅需進行少量配置更改,即可在 GPU 和 TPU 之間靈活切換、或同時運行兩者。GKE Inference Gateway 則能在 TPU 伺服器之間進行智慧負載平衡,將生成首個詞元的時間(time-to-first-token, TTFT)降低高達 96%,並降低高達 30% 的服務成本。
我們的軟體層使 AI Hypercomputer 能夠在訓練、微調和大規模提供 AI 工作負載服務時,同步展現高效能和高可靠性。歸功於整個技術堆疊的深度整合──從資料中心範圍的硬體優化到開放軟體和託管服務──Ironwood TPU 是我們迄今最強大、最節能的 TPU。深入了解我們的軟硬體協同設計方法,請參閱此處。
Axion:重新定義通用運算
在建構和提供現代化應用程式的過程中,既需要高度專業化的加速器,也需要強大且高效的通用運算能力。這正是我們打造 Axion 的願景──目標透過我們客製化、基於 Arm Neoverse® 的 CPU,為日常工作負載提供卓越的效能、成本效益和能源效率。
今天,我們擴展了 Axion 產品組合,推出:
- ● N4A(預覽版):我們的第二款通用 Axion 虛擬機器,特別適合用於微服務、容器化應用程式、開源資料庫、批次處理、資料分析、開發環境、實驗測試、資料準備,以及支援 AI 應用所需的網頁服務作業。點擊此處深入了解 N4A。
- ● C4A metal(預覽版):我們首款基於 Arm 的裸機執行個體,為專業工作負載,例如 Android 開發、車用系統、具嚴格授權要求的軟體、規模化測試平台、或執行複雜模擬的應用所提供專用的實體伺服器。深入了解 C4A metal 請參閱此處。

隨著今天的發布,Axion 產品組合現已包含三種強大的選項:N4A、C4A 和 C4A metal。C 系列和 N 系列的搭配組合,將讓你無需在效能或特定工作負載需求上妥協,即可降低營運總成本。
| 採用 Axion 的執行個體 | 最佳化適用情境 | 主要功能特色 |
| N4A(預覽版) | 價格效益與靈活性。 | 可搭載高達 64 個 vCPU、512 GB DDR5 記憶體和提供 50 Gbps 網路頻寬;支援自訂機器類型(Custom Machine Types)、Hyperdisk Balanced 與 Hyperdisk Throughput 磁碟區。 |
| C4A Metal(預覽版) | 適用於專業工作負載,例如 Hypervisor 與原生 Arm 開發作業環境。 | 最高可搭載達 96 個 vCPU、768 GB DDR5 記憶體;支援 Hyperdisk 磁碟區儲存空間,以及最高 100 Gbps 的網路頻寬。 |
| C4A | 穩定且高效的運算效能。 | 可搭載高達 72 個 vCPU、576 GB DDR5 記憶體、支援 100 Gbps Tier 1 網路頻寬、Titanium SSD(最高 6TB 的本機儲存容量)、進階維護控制項,並支援 Hyperdisk Balanced、Throughput 與 Extreme 磁碟區的儲存選項。 |
Axion 內建的高效能,使其成為支援現代 AI 工作流程的理想選項。當像 Ironwood 這樣的專業加速器負責處理複雜的模型伺服任務的同時,Axion 則在運行的核心骨幹層面表現出色:支援高容量的資料準備、擷取,以及運行託管企業智慧應用程式的應用程式伺服器的。Axion 已經為客戶帶來實質的影響:
Vimeo 託管與交付營運資深總監 Joe Peled:「在 Vimeo,我們長期仰賴自訂機器類型(Custom Machine Types)來有效管理我們龐大的影片轉檔平台。我們在新型 Axion N4A 執行個體上的初步測試結果令人非常驚豔,解鎖了新的效率水平。與同等級的 x86 VM 相比,我們的核心轉檔工作負載效能提高了 30%。這意味著我們能在無需改變營運模式的情況下,改善我們的單位經濟效益,並以更高的利潤擴展服務。」

ZoomInfo 基礎架構首席架構師 Sergei Kore:「在 ZoomInfo,我們營運著一個效率至上的龐大的數據智慧平台。我們的核心資料處理流程,對於向客戶提供即時洞察至關重要,這些流程廣泛運行在 GKE 中的 Dataflow 和 Java 服務上。在我們對 N4A 執行個體的預覽測試中,測得這些關鍵工作負載的性價比相較於 x86 的同類產品提升了 60%。這使我們能夠更有效率地擴展平台,並更快地為客戶提供更多價值。」

Rise 雲端與軟體架構師 Or Ben Dahan:「遷移到 Google Cloud 的 Axion 產品組合為我們帶來了關鍵的競爭優勢。我們將運算消耗降低了 20%,同時透過 C4A 執行個體(例如我們的供應方平台 SSP 後端服務)保持低延遲和穩定性。此外,C4A 使我們能夠利用 Hyperdisk,為我們的狀態性工作負載(stateful workloads) 提供精確所需的 IOPS,而不受執行個體大小的限制。這種靈活性為我們帶來兩全其美的優勢──能為客戶贏得更多廣告競價,同時顯著提高我們的利潤。我們正在測試 N4A 系列,運行例如 API 轉送服務等一些需要最高靈活性的關鍵工作負載。我們很高興分享,目前在生產環境中運行的數個應用程式,其 CPU 消耗量比我們先前的基礎架構減少了 15%,進一步降低了成本,同時確保合適的執行個體能支援所需的工作負載特性。」

AI與日常運算的強大組合
要在這個模型架構、軟體和技術不斷演進的時代中脫穎而出,你的企業需要結合專為模型訓練和服務打造的 AI 加速器,以及能支援包含 AI 應用日常工作負載的高效的通用型 CPU。
無論你是將 Ironwood 和 Axion 搭配使用,或是將它們與 AI Hypercomputer 上提供的其他運算選項混合搭配,這種系統級的解決方案都能提供最極致的靈活性和能力,以應對最嚴苛的工作負載。
立即註冊以測試 Ironwood、Axion N4A 或 C4A metal。
本文作者:Google Cloud AI 與基礎架構副總裁暨總經理 Amin Vahdat、Google Cloud 運算與 AI 基礎架構副總裁暨總經理 Mark Lohmeyer
備註:Ironwood TPU 初期的部署將集中於美國,我們預計將在 2026 年中將其擴展至全球各個地區。
