Gemini Omni Flash是一款能將任何輸入素材轉化為內容創作的全新模型,並將率先支援影片生成輸出

去年,Nano Banana 將 Gemini 的智慧導入影像生成與編輯領域。從那時起,這項技術已經幫助了數百萬名使用者修復老照片、將草圖化為設計,並以過去無法想像的方式實現腦中的創意想法。從開發之初,我們就是以原生多模態的基礎打造 Gemini。現在,我們將邁出令人期待的下一步。
我們正式推出 Gemini Omni,這是一款結合 Gemini 邏輯推理與創作能力的全新模型,能以任何的輸入素材創造出任意形式的內容,並率先支援影片生成。透過 Omni,你可以自由混搭圖片、音訊、影片和文字素材等輸入內容,結合 Gemini 基於現實世界的知識,進一步生成高品質的影片。你甚至可以透過像聊天一樣的簡單對話,輕鬆編輯你的影片。
今天,我們正式推出 Omni 系列中的第一款模型 Gemini Omni Flash,並開始導入 Gemini 應用程式、Google Flow 和 YouTube Shorts。未來,我們會逐步支援圖片與音訊等更多元的輸出模態類型。
透過對話編輯影片
Gemini Omni 讓你能夠用最自然的流暢語言,輕鬆進行影片編輯。每一次的指令都會承接上一步的脈絡,不僅能讓影片保持角色外觀的一致性、擁有合理的物理邏輯,場景更會記住前一幕發生的細節。
改變眼前的世界:針對畫面中的特定物件進行微調,或是徹底抽換改變整個世界背景。隨手拍下的影片現在可以成為打造新世界的起點,讓你創作出過去無法親自拍攝的畫面。
重新想像動作與情節:只要上傳一段拍好的影片,你可以直接要求 Omni 改變其中的情境,像是調整動作、加入新角色或物品,或是把平凡瞬間變成令人意想不到的驚喜情節。
反覆微調影片細節:調整環境、視角、風格,甚至是特定的小細節,並保留影片原始場景的連續性。
結合Gemini的真實世界知識
Omni 不只能夠建構出逼真的場景,還能推理接下來該發生什麼事。透過結合物理常識跟 Gemini 豐富的歷史、科學與文化知識,Omni 能進一步拉近擬真畫面與深刻敘事之間的距離。
更符合真實物理法則的畫面:Omni 大幅提升了對重力、動能與流體力學的理解,讓生成的場景更加逼真。
融合知識與創意:透過 Gemini 的知識庫,Omin 能超越單純的模式比對 (pattern matching),在語言、影像與背後的深層意涵間建立更深的理解。
複雜概念視覺化:透過簡短的提示詞,Omni 就能製作出生動的解說影片,透過視覺效果幫助你輕鬆了解生硬複雜的概念。
混搭不同素材生成影片
參考任何東西:Omni 能將圖像、文字、影片或音訊等任何參考來源,揉合轉化為單一且風格連貫的成品輸出。在音訊輸入上,我們初期會先開放語音檔作為參考素材,並持續加入其他音訊輸入類型。
從手邊的素材開始:你可以透過輸入角色圖片、場景圖或手繪草圖等參考資料,創作出符合心中想像的作品。
套用風格、動態或特效:你可以使用參考素材來定義視覺風格,或是直接用自然對話的方式進行描述,Omni 會融合所有輸入的參考內容,產出風格一致的短片。
使用自己的虛擬化身創作影片
我們始終致力以負責任的方式發展 AI 技術,並制定明確的政策來保護使用者及規範我們 AI 工具的使用。使用者可以透過「虛擬化身(Avatars)」建立一個數位版本的自己,並生成無論在外貌或聲音上都極具個人特色的影片。至於進一步編輯影片以修改音訊和語音的功能,我們目前仍持續進行測試與評估,確保能負責任地將這項技術帶給大眾。
所有由 Omni 創作的影片,都會包含無法以肉眼察覺的 SynthID 數位浮水印。你可以透過 Gemini 應用程式、Chrome 瀏覽器中的的 Gemini 以及 Google 搜尋,驗證影片是否由 Gemini Omni 生成。如果想進一步了解我們如何擴展內容透明度與驗證工具,並認識網路上的內容創作與編輯歷程,歡迎參閱我們的延伸部落格文章。
立即體驗Gemini Omni
從今天起,我們正式推出 Omni 系列的第一款模型 Gemini Omni Flash。所有 Google AI Plus、Pro 與 Ultra 方案的訂閱用戶,都能透過 Gemini 應用程式 和 Google Flow 搶先體驗。此外,從本週開始,使用者也能在 YouTube Shorts 和 YouTube Create 應用程式中免費體驗這項功能。
在接下來的幾週內,我們也將透過 API 陸續把這項強大的功能開放給開發人員與企業客戶使用。
