
我們持續透過 Gemini 讓 AI 更實用並帶來更多助益。
通常在 I/O 大會登場的前幾週,你可能不會聽到太多來自我們的消息,因為我們會把最精彩的模型留到 I/O 分享。但在 Gemini 的時代,我們很有可能會在三月的某個星期二就推出我們目前最聰明的 AI 模型,或是在大會前一週宣布像 AlphaEvolve 這樣令人振奮的突破。
我們希望能用最快的速度,不僅讓你可以體驗我們最頂尖的模型,也把模型整合到我們的產品裡。所以,我們發表資訊的速度,比過去任何時候都來得更迅速。

飛躍式的模型效能進展
我對 AI 模型的飛速進展感到格外興奮。自我們的第一代 Gemini Pro 模型問世以來,用於衡量模型進展的 Elo 評分已經提升超過 300 分。今天,Gemini 2.5 Pro 更在 LMArena 排行榜的各項類別中獨占鰲頭,擁有亮眼表現。
模型能有如此顯著的成長,受惠於我們世界頂尖的基礎架構。我們的第七代 TPU — Ironwood,是首款專為能夠大規模驅動思考型(thinking)、推論型(inferential)的 AI 模型所設計。比起前一代,Ironwood 的效能提升了 10 倍,每個 Pod 的總運算能力可達4,250 萬兆次浮點運算(42.5 Exaflops)的驚人成果。
從 TPU 晶片開始,我們整體基礎架構的強大實力,不僅讓我們能推出運算速度更快的模型,同時也讓模型價格得以顯著降低。我們一次又一次地成功以最具效益的價格點,提供最頂尖的模型。Google 不僅引領著帕雷托前沿(Pareto Frontier),在各種目標互相牽制、無法齊美的技術效能曲線上取得領先,更徹底重新定義並拓展技術疆界的極限。

世界正積極擁抱 AI
智慧技術如今已經開始普及到世界的每個角落,讓每個人都能取用。而全世界也正以前所未有的速度,積極回應並導入 AI 應用。以下分享幾個關鍵數據與指標:
● 去年此時,我們的產品和 API 每月處理的詞元(token)總量為 9.7 兆。現在,這個數字已超過 480 兆,足足成長了 50 倍。
● 超過 700 萬名開發者正使用 Gemini 模型進行開發,比去年同期增加了 5 倍;在 Vertex AI 上的 Gemini 使用量也成長了 40 倍。
● Gemini 應用程式的每月活躍使用人數已突破 4 億。我們觀察到強勁的成長動能和使用者參與度,尤其是在 2.5 系列模型上。在 Gemini 應用程式中使用 2.5 Pro 的使用者,其使用量更增加了 45%。

從前瞻研究到實際應用
這些進展代表我們正邁入 AI 平台革新的新階段。數十年來的研究積累,如今正逐步成為全球各地的人們、企業和社群在日常生活中的真實應用。
從 Project Starline 到 Google Beam 與語音翻譯
幾年前的 I/O 大會上,我們首次展示了 Project Starline 這項突破性的 3D 視訊技術。當時的目標是希望讓人們即使分隔兩地,也能創造出如同共處一室的感覺。
我們持續取得技術進展,今天將隆重介紹這項計畫的下一個篇章:Google Beam ,以 AI 優先的新視訊通訊平台。Beam 採用了最先進的全新影片模型,能將 2D 影片串流轉換為逼真的 3D 體驗,透過一組由六個攝影機組成的鏡頭陣列和 AI 技術,將視訊串流融合在一起,並在 3D 光場顯示器上呈現你的影像。它擁有近乎完美的頭部追蹤技術,精準度可達毫米等級,並且能以每秒 60 幀的速度進行即時運算。這項服務將可帶來更自然、更沉浸式的對話體驗。透過與 HP 的合作,首批 Google Beam 裝置預計將於今年稍晚提供早期客戶體驗。

多年來,我們也持續在 Google Meet 中打造更具沉浸感的體驗,其中也包含了一項可以協助人們打破語言隔閡的語音翻譯技術。這項即將於 Google Meet 推出的功能,可以近乎即時地翻譯對話內容,還能對上說話者的聲音、語氣,甚至是細微的表情,讓我們可以進行更自然的跨語言對話。目前,英文與西班牙文翻譯的 Beta 測試版已向 Google AI Pro 和 Ultra 方案訂閱者推出,未來幾週將陸續支援更多語言。Workspace 企業用戶則可於今年稍晚開始參與早期測試。
從 Project Astra 到 Gemini Live
另一項同樣在 I/O 大會上亮相,且也令人感到興奮的研究計畫是 Project Astra,目標是探索一個能夠理解你周遭真實環境的通用 AI 助理。Gemini Live 現在整合了 Project Astra 的相機與螢幕分享功能。人們正以各種有趣的方式使用它,像是幫助準備面試,甚至規劃馬拉松訓練等。這項功能已經開放給所有 Android 使用者體驗,並將從今天開始,陸續向 iOS 的使用者推送更新。
我們也正將類似功能導入 Google 搜尋等產品中。
從 Project Mariner 到 AI 代理模式(Agent Mode)
我們將 AI 代理(agent)視為一種結合先進 AI 模型智慧以及具有存取工具能力的系統,因此它能夠在你的掌控下,代表你執行各種任務。
我們的早期研究原型 Project Mariner,初步展現了具備電腦操作能力,並與網路互動來為你完成任務的代理能力。從去年 12 月我們以早期研究原型的形式發布 Project Mariner 以來,我們在新的多工處理能力上取得了長足的進展,並透過一種我們稱為「教學與重複」(teach and repeat)的機制,讓你只需示範一次任務,它就能從中學習並為未來類似的任務進行規劃。目前,我們正透過 Gemini API 將 Project Mariner 的電腦操作能力提供給開發者社群。像是 Automation Anywhere 和 UiPath 等信任測試夥伴已經開始運用這些功能進行開發,我們預計在今年夏天會更廣泛地開放給更多開發者使用。
電腦操作能力只是我們建構一個蓬勃發展的代理生態系統時,所需具備的工具之一。例如,我們的開放式 Agent2Agent(A2A)協定,讓不同的 AI 代理能夠彼此互相溝通協作;或是由 Anthropic 推出的模型脈絡協定(Model Context Protocol, MCP),讓代理能夠存取其他服務。今天,我們很高興地宣布,我們的 Gemini API 和 SDK 現已支援並相容於 MCP 工具。
我們也開始將 AI 代理功能逐步導入 Chrome、Google 搜尋以及 Gemini 應用程式中。舉例來說,Gemini 應用程式中全新的「代理模式」(Agent Mode)可以協助你更有效率地完成更多事情。如果你正在尋找新的租屋處,它會幫你在像是 Zillow 這樣的房產網站找到符合條件的房源、調整篩選條件,並使用 MCP 存取房源的詳細資訊,甚至為你預約看房時間。在 Gemini 應用程式中的實驗性版本代理模式,將會陸續向訂閱者推出。這個功能也將為像 Zillow 這樣的企業帶來新客源並提高轉換率。
這是一個嶄新而且快速發展的領域,我們很期待能進一步探索,如何把 AI 代理的便利性更廣泛地帶給所有使用者以及整個生態系。
更加個人化的體驗
要把研究成果真正轉化成現實應用的最好方式,就是讓它能夠在日常生活中變得非常實用,這正是個人化可以發揮的地方。我們正透過一個叫做「個人化情境」(personal context)的概念來實現這一點。取得你的同意後,Gemini 模型可以在保障隱私、資料使用透明度,並確保你有完整掌控權的情況下,運用你在各個 Google 應用程式中的個人情境資訊。
Gmail 中全新的個人化智慧回覆(Personalized Smart Replies)功能,就是一個很好的例子。如果你的朋友透過 Gmail 向你請教之前公路旅行的經驗與建議,Gemini 可以幫忙搜尋你過去在 Gmail 中的郵件,以及儲存在 Google 雲端硬碟中的檔案,像是你在 Google 文件中建立的行程規劃,然後幫你草擬一則包含具體且符合情境的回覆。不僅如此,它會學習比對你常用的詞彙、捕捉你的語氣和風格,協助生成一封內容貼切、就像你會回應的信件內容。個人化智慧回覆功能將於今年稍晚開放訂閱者使用。你可以想像個人化情境在 Google 搜尋、Gemini 等更多服務中,將為使用者帶來許多幫助。
AI 模式為搜尋帶來最新 AI 功能
我們的 Gemini 模型正持續讓 Google 搜尋變得更智慧、更具代理能力且更個人化。
自去年推出以來,AI 摘要(AI Overviews)的使用者已擴展至超過 15 億,遍及 200 個國家和地區。隨著人們使用 AI 摘要,我們觀察到他們不僅對搜尋結果的滿意度更高,也增加他們使用搜尋的頻率。在美國和印度等市場,AI 摘要更帶動了那些顯示「AI 摘要」相關查詢類型超過一成的成長,而且這個成長趨勢隨著時間持續增長。
這是 Google 搜尋近十年來所推出最傑出的功能之一。
對於希望獲得更全方位 AI 搜尋體驗的使用者,我們推出全新的 AI 模式(AI Mode),重塑了對於搜尋的想像。透過更進階的推理能力,你可以向 AI 模式提出更長、更複雜的提問。事實上,早期測試者提出的提問長度,已經達到傳統搜尋的 2 至 3 倍,而且還可以透過追問進行更深入的探索。這些功能都會整合在 Google 搜尋頁面的一個全新分頁中。
我自己經常使用這項功能,它完全改變了我使用搜尋的方式。我很興奮地宣布,AI 模式將從即日起在美國率先推出。透過我們最新的 Gemini 模型,我們也將確保 AI 回應的品質與準確度能夠達到大家對 Google 搜尋一貫的期望,並同時提供業界最快的回應速度。此外,本週我們也會開始在美國的 Google 搜尋中,導入 Gemini 2.5 版本模型。
持續精進我們最聰明的模型:Gemini 2.5
我們強大且最高效的主力模型 Gemini 2.5 Flash,因為運算速度快且成本親民,深受開發者社群喜愛。而新一代的 2.5 Flash 幾乎在各面向都有顯著提升。無論是在推理能力、多模態處理、程式碼生成和長脈絡理解等關鍵基準上,表現都更加出色。它在 LMArena 排行榜上的表現僅次於 2.5 Pro。
我們正透過導入一種我們稱之為「深度思考」(Deep Think)的強化推理模式,讓 2.5 Pro 變得更加出色。這項技術運用了我們在思考與推理領域最新的研究成果,像是平行思考技術(parallel thinking techniques)等。
更個人化、更主動、更強大的 Gemini 應用程式
我們正逐步讓 Deep Research 功能更加個人化,讓你能夠上傳自己的檔案,並透過快速連結到 Google 雲端硬碟和 Gmail 來增強它生成個人化研究報告的能力。不僅如此,我們也將這項功能與 Canvas 整合,讓你只需要一鍵點擊,就可以輕鬆生成動態資訊圖表、互動測驗,甚至是支援多種語言的 Podcast。除此之外,我們觀察到使用者透過 Canvas 進行「Vibe coding」,透過更直覺的方式進行程式開發,讓更多人只需與 Gemini 對話,就能輕鬆打造實用的應用程式。
至於深受大家喜愛的 Gemini Live,我們將會免費開放相機和螢幕分享功能給包含 iOS 使用者在內的每個人。另外,我們也會讓 Gemini Live 與你喜愛的 Google 應用程式串聯整合,帶來更流暢的即時協助與體驗。
生成式媒體模型的進展
我們推出最先進、具備原生的音訊生成能力的影片模型 Veo 3。同時,我們也宣布了最新且功能最強大的圖像生成模型 Imagen 4。這兩款模型都已經整合至 Gemini,為創意發想與創作開啟全新的世界。
我們正透過「Flow」這個新工具,為影片製作者帶來更多可能,可以用來創作像是具有電影質感的短片,或是把短片延伸擴展為更長的片段。
一個改善並提升生活的契機
AI 帶來契機,潛力巨大而且影響深遠。如何讓 AI 的益處能夠觸及到每一個人,將仰賴這波浪潮中,每一位開發者、技術建構者與問題解決者的智慧和努力。當想到我們今日所投入的研究,從機器人技術、量子運算,到 AlphaFold 及 Waymo,這些都將成為奠定未來樣貌的基石,就令人感到無比振奮。
我從未把能運用科技來改善人們生活這件事情視為理所當然。最近的一次經驗,讓我對此有更深刻的體悟。當時我跟我的父母正在舊金山,他們第一件想做的事,就是搭乘 Waymo 自駕車。我後來才知道,這已經成為舊金山最熱門的觀光行程之一。雖然我以前搭乘過 Waymo,但看著我年屆八旬的父親對此感到讚嘆不已的神情,讓我對科技的進步有了全新感悟。
這段經驗再次提醒了我,科技確實擁有啟發人心、帶來驚嘆,並持續推動我們向前邁進的巨大力量。我已經迫不及待想看見那些我們將一起打造出來的美好成果。
作者:Google 暨 Alphabet 執行長 Sundar Pichai