Google Gemini Omni 登場:AI 自動將上傳素材生成想要畫面,還能用文字對話剪輯影片

Google Gemini Omni 登場:AI 自動將上傳素材生成想要畫面,還能用文字對話剪輯影片

Google 在 2026 年 5 月 19 日正式發布了全新的 AI 模型 Gemini Omni,這次推出的第一款產品是 Gemini Omni Flash,主打「什麼素材都能丟進去、什麼內容都能生出來」的多模態生成能力。根據 官網的介紹,Gemini Omni 可以同時接受圖片、音訊、影片和文字作為輸入,並生成高品質的影片內容,同時還能透過自然語言對話方式進行剪輯,對想要快速產出影片內容的創作者來說,這是一個相當值得關注的新工具。

Gemini Omni 是什麼?從 Nano Banana 到全模態生成的演進

要瞭解這次 Gemini Omni 的意義,可以先回顧一下背景。去年 Google 推出的 Nano Banana 模型,讓 Gemini 具備了圖片生成與編輯的能力,幫助很多人修復老照片、從草圖設計視覺稿。這次的 Gemini Omni,則是在這個基礎上更進一步,把生成能力從「圖片」擴展到「影片」。實際上,Google 從一開始就把 Gemini 設計成原生多模態的模型,這次推出 Omni,代表 Gemini 的推理能力正式與創作能力融合在一起,可以說是 Gemini 系列的一個重要里程碑。

🔔 不錯過任何精彩內容

立即訂閱我們的 LINE 或將本站設為 Google 偏好來源,掌握最新資訊!

§相關文章,還可以參閱:

Gemini Omni Flash 現在在哪裡可以用?

這次首發的 Gemini Omni Flash,目前已經在幾個平台同步上線。訂閱 Google AI Plus、Pro 或 Ultra 方案的用戶,可以透過 Gemini appGoogle Flow 開始使用。對一般用戶來說,最快接觸到的管道是 YouTube ShortsYouTube Create App,這兩個平台本週起已開始免費提供 Omni Flash 的功能。此外,開發者和企業客戶也將在未來幾週內,透過 API 的方式取得使用權限。

用文字對話剪輯影片:Omni 最直覺的操作方式

這款工具最讓人印象深刻的功能之一,就是「對話式影片編輯」。你不需要學習複雜的剪輯軟體,只要用文字告訴 Omni 你想改什麼,它就會幫你執行。比如你可以說「把燈光調暗」、「把小提琴手傳送到另一個場景」、「讓鏡頭移到肩膀後方」,每一道指令都會疊加在上一步的結果上,場景的連貫性和人物一致性都會自動保留。對不熟悉剪輯流程的創作者來說,這樣的操作方式大幅降低了製作門檻。

Google Gemini Omni 登場:AI 自動將上傳素材生成想要畫面,還能用文字對話剪輯影片

丟入任何素材,AI 自動融合生成影片

Gemini Omni 支援的輸入格式相當彈性,圖片、文字、影片、音訊都可以同時作為參考素材,Omni 會把這些素材融合成一段完整的影片輸出。舉例來說,你可以提供一張角色圖片、一段參考影片的運鏡風格,再加上一段音樂,Omni 就能生成一段符合你設定的影片。這次音訊輸入先以人聲參考(Voice reference)為主,其他音訊輸入類型會在後續更新中陸續開放。實際上,這種「把手邊有的素材全部丟進去」的操作方式,對創作者來說非常實用,不需要從零開始構思。

Google Gemini Omni 登場:AI 自動將上傳素材生成想要畫面,還能用文字對話剪輯影片

物理感知與知識融合:讓生成畫面更合理

Gemini Omni 在影片生成上,不只是「看起來像真的」,更強調「符合現實邏輯」。這次 Omni 加強了對重力、動能、流體力學等物理規律的理解,讓畫面中的物體行為更自然,例如滾動的彈珠、流動的液體,動作都更接近真實。除了物理層面,Omni 也結合了 Gemini 本身的世界知識,可以在影片中融入歷史、科學、文化脈絡,讓生成內容從純粹的視覺效果,提升到有意義的故事敘述。對需要製作教學或解說類影片的用戶而言,這個能力特別值得期待。

Google Gemini Omni 登場:AI 自動將上傳素材生成想要畫面,還能用文字對話剪輯影片

數位分身功能:用自己的臉和聲音生成影片

這次 Gemini Omni 也加入了 Avatars(數位分身)功能,讓你可以建立一個看起來和聽起來都像自己的數位版本,並用它來生成影片內容。這對想要大量產出個人品牌影片、但不想每次都出鏡拍攝的創作者來說,是個很有吸引力的功能。值得注意的是,Google 表示目前在「編輯影片中的語音和說話內容」這部分,他們仍在評估如何負責任地推出,所以現階段數位分身功能以個人創作為主,相關政策也明確規範了使用範圍。

SynthID 浮水印:每一支 AI 影片都有標記

在安全性方面,所有透過 Gemini Omni 生成的影片,都會自動嵌入 Google 的 SynthID 數位浮水印,這個浮水印人眼看不到,但可以透過 Gemini app、Chrome 瀏覽器中的 Gemini 功能,以及 Google 搜尋來驗證影片是否為 AI 生成。這次 Google 也宣布將擴大內容透明度工具的部署,幫助用戶在網路上更容易辨識 AI 生成或編輯的內容。對創作者和內容消費者來說,這是一個在 AI 生成內容越來越普及的時代,值得關注的機制。

Gemini Omni Flash 操作步驟(以 Gemini app 為例)

如果你已經是 Google AI 訂閱用戶,以下是開始使用 Gemini Omni Flash 的基本步驟:

  1. 開啟 Gemini app,確認帳號已訂閱 Google AI Plus、Pro 或 Ultra 方案。
  2. 在對話框中選擇上傳素材(圖片、影片、音訊均可),或直接輸入文字描述你想生成的影片內容。
  3. 輸入你的指令,例如描述場景、風格、動作或音樂節奏,提交後 Omni Flash 會生成影片。
  4. 看到生成結果後,可以繼續用文字對話方式追加指令,例如「改變鏡頭角度」或「調整光線」,進行多輪編輯。
  5. 完成後下載影片,系統會自動附加 SynthID 浮水印,標示為 AI 生成內容。

如果你是 YouTube 用戶,這週起在 YouTube ShortsYouTube Create App 中也可以免費試用 Omni Flash 的功能,不需要額外訂閱。

總結:Gemini Omni 適合哪些人?

Gemini Omni Flash 這次的推出,最直接受益的是兩類用戶:一是想要快速製作影片但不熟悉剪輯的創作者,二是已經有素材但想用 AI 加速後製流程的內容製作者。實際上,能夠把圖片、音訊、影片混合輸入,再透過對話方式反覆調整,這樣的工作流程在過去需要多個工具才能完成,現在 Gemini Omni 把它整合在一起。未來 Google 也預告會持續擴充輸出模態,包括圖片和音訊輸出,這款工具的使用場景還會繼續延伸。