
如果一張圖片值一千個字,那麼一段影片就值一百萬個字。對創作者來說,生成式 AI 影片承諾能將任何故事或概念變成現實,但現實往往是令人沮喪的「提示並祈禱」循環——輸入一段提示詞,然後祈禱能得到可用的結果,對角色一致性、電影品質或敘事連貫性幾乎沒有控制權。
Google 最新推出的 Veo 3.1 改變了這個局面,從簡單的生成轉向創意控制。這篇文章將帶你深入了解 Google 官方發布的終極提示指南,學習如何像專業導演一樣精準掌控 AI 影片生成。
Veo 3.1 的核心能力
在開始學習提示技巧之前,先了解 Veo 3.1 能做什麼非常重要。這個模型建立在 Veo 3 的基礎上,具有更強的提示遵循能力,並在將圖片轉換為影片時提升了音視頻品質。
核心生成功能
- 高保真影片:支援 720p 或 1080p 解析度
- 靈活比例:16:9 或 9:16 格式
- 可變長度:4、6 或 8 秒的片段
- 豐富音效與對話:Veo 3.1 擅長生成逼真、同步的聲音,從多人對話到精確計時的音效,全都由提示詞引導
- 複雜場景理解:模型對敘事結構和電影風格有更深入的理解,能更好地描繪角色互動並遵循敘事線索
進階創意控制
- 改進的圖片轉影片:以更好的提示遵循度和增強的音視頻品質讓靜態圖片動起來
- 「素材轉影片」功能:提供場景、角色、物件或風格的參考圖片,在多個鏡頭中保持一致的美學,現在還包含音訊生成
- 「首尾幀」無縫轉場:在提供的開始圖片和結束圖片之間生成自然的影片轉場,並配上音效
- 添加/移除物件:在生成的影片中引入新物件或移除現有物件,Veo 會保持場景的原始構圖
- 數位浮水印:所有生成的影片都標記有 SynthID,表明內容是 AI 生成的
有效提示詞的五步驟公式
結構化的提示詞能產生一致、高品質的結果。Google 建議使用這個五部分公式來實現最佳控制:
[攝影技巧] + [主體] + [動作] + [場景] + [風格與氛圍]
- 攝影技巧:定義攝影機運鏡和鏡頭構圖
- 主體:識別主要角色或焦點
- 動作:描述主體正在做什麼
- 場景:詳細說明環境和背景元素
- 風格與氛圍:指定整體美學、情緒和光線
實戰範例
提示詞:「中景鏡頭,一位疲憊的企業員工,疲憊地揉著太陽穴,在深夜雜亂的辦公室裡,面對著一台笨重的 1980 年代電腦。場景由刺眼的頂部日光燈和單色顯示器的綠色光芒照亮。復古美學,彷彿用 1980 年代彩色膠片拍攝,略帶顆粒感。」
這個範例完美展示了五步驟公式如何運作:
- 攝影技巧:中景鏡頭
- 主體:疲憊的企業員工
- 動作:揉著太陽穴
- 場景:深夜雜亂的辦公室,1980 年代電腦
- 風格與氛圍:復古美學,1980 年代膠片,顆粒感,日光燈與綠色螢光
核心一:掌握電影攝影語言
提示詞中的「攝影技巧」元素是傳達語氣和情感的最強大工具。
攝影機運鏡
常用的運鏡包括:搖臂鏡頭、跟拍鏡頭、升降鏡頭、空中視角、緩慢平移、POV 鏡頭等。
搖臂鏡頭範例
提示詞:「搖臂鏡頭從低處的孤獨徒步旅行者開始,上升到高處,揭示他站在巨大的、充滿霧氣的峽谷邊緣,日出時分,史詩奇幻風格,令人敬畏,柔和的晨光。」
這個範例展示了如何用攝影機運鏡創造戲劇性的揭示效果,從個體的渺小到環境的壯闊。
構圖與鏡頭
- 構圖:廣角鏡頭、特寫、極特寫、低角度、雙人鏡頭
- 鏡頭與焦點:淺景深、廣角鏡頭、柔焦、微距鏡頭、深焦
淺景深範例
提示詞:「非常淺景深的特寫,一位年輕女性的臉,看著公車窗外經過的城市燈光,玻璃上隱約可見她的倒影,在暴風雨中的夜晚公車內,憂鬱的情緒,冷藍色調,陰鬱,電影感。」
淺景深技巧讓觀眾專注於角色的情緒,模糊的背景營造出孤獨與沉思的氛圍。
核心二:導演音效設計
Veo 3.1 可以根據你的文字指令生成完整的配樂。
三大音效類型
- 對話:使用引號標示特定台詞
- 音效 (SFX):清楚描述聲音
- 環境音:定義背景音景
- 範例:「環境音:星艦艦橋的安靜嗡嗡聲。」
整合音效設計能讓你的 AI 影片更加逼真和沉浸式,不只是視覺體驗,更是完整的感官體驗。
核心三:精通負面提示詞
要精煉輸出結果,請描述你希望排除的內容。例如,指定「一片荒涼的景觀,沒有建築物或道路」,而不是「沒有人造結構」。
使用具體的正面描述來表達「不要」,會比直接使用否定句更有效。
核心四:用 Gemini 增強提示詞
如果你需要增加更多細節,可以使用 Gemini 來分析和豐富簡單的提示詞,加入更具描述性和電影感的語言。
這種組合使用策略能幫助你從簡短的創意發想擴展成完整的專業級提示詞。
進階創意工作流程
雖然單一詳細的提示詞很強大,但多步驟工作流程通過將創意過程分解為可管理的階段,提供了無與倫比的控制力。
工作流程一:用「首尾幀」創造動態轉場
這項技術讓你能在兩個不同的視角之間創造特定且可控的攝影機運動或轉換。
步驟 1:創建起始畫面
使用 Gemini 2.5 Flash Image 生成初始鏡頭。
Gemini 2.5 Flash Image 提示詞:「一位女性流行歌手深情地對著復古麥克風唱歌的中景鏡頭。她在黑暗的舞台上,被來自前方的單一戲劇性聚光燈照亮。她閉著眼睛,捕捉情感時刻。寫實照片,電影感。」
步驟 2:創建結束畫面
用 Gemini 2.5 Flash Image 生成第二張互補圖片,例如不同的 POV 角度。
Gemini 2.5 Flash Image 提示詞:「從舞台上歌手身後的 POV 鏡頭,看向大批歡呼的觀眾。舞台燈光明亮,產生鏡頭光暈。前景可以看到歌手的後腦勺和肩膀。觀眾是燈光和剪影的海洋。充滿活力的氛圍。」
步驟 3:用 Veo 製作動畫
將兩張圖片輸入 Veo,使用「首尾幀」功能。在提示詞中描述轉場和你想要的音訊。
Veo 3.1 提示詞:「攝影機執行流暢的 180 度弧形鏡頭,從歌手的正面視角開始,繞著她旋轉,無縫地結束在舞台上從她身後的 POV 鏡頭。歌手唱著『當你看著我的眼睛,我能看見一百萬顆星星。』」
工作流程二:用「素材轉影片」建立對話場景
這個工作流程非常適合創建具有一致角色且進行對話的多鏡頭場景,利用 Veo 3.1 打造對話的能力。
步驟 1:生成你的「素材」
使用 Gemini 2.5 Flash Image 為你的角色和場景創建參考圖片。
步驟 2:構建場景
使用「素材轉影片」功能搭配相關的參考圖片。
提示詞:「使用提供的偵探、女性和辦公室場景圖片,創建偵探坐在桌子後面的中景鏡頭。他抬頭看著女性,用疲憊的聲音說:『這城市所有的辦公室,你偏偏走進我的。』」
接著創建第二個鏡頭:
提示詞:「使用提供的偵探、女性和辦公室場景圖片,創建聚焦於女性的鏡頭。她嘴角掛著輕微、神秘的微笑回答:『你被高度推薦。』」
這個工作流程讓你能保持角色和場景的一致性,同時創建電影感的對話場景。
工作流程三:時間戳提示
這個工作流程讓你能以精確的電影節奏導演完整的多鏡頭序列,全部在單次生成中完成。通過將動作分配到計時段落,你可以有效地創建具有多個不同鏡頭的完整場景,節省時間並確保視覺一致性。
提示詞範例:
[00:00-00:02] 從年輕女性探險家背後的中景鏡頭,她背著皮革背包,凌亂的棕色頭髮紮成馬尾,她撥開一條大型叢林藤蔓,露出隱藏的小徑。
[00:02-00:04] 反向鏡頭拍攝探險家滿是雀斑的臉,她的表情充滿敬畏,凝視著背景中長滿苔蘚的古代遺跡。SFX:茂密樹葉的沙沙聲,遠處異國鳥類的叫聲。
[00:04-00:06] 跟拍鏡頭跟隨探險家走進空地,她的手撫過崩塌石牆上複雜的雕刻。情感:驚奇與敬畏。
[00:06-00:08] 廣角高角度搖臂鏡頭,揭示孤獨的探險家在被叢林半吞噬的廣闊、被遺忘的神廟建築群中央顯得渺小。SFX:溫柔的管弦樂配樂開始響起。
這個技巧特別適合需要多個鏡頭轉換的完整場景,讓你能在一次生成中完成複雜的敘事序列。
開始使用 Veo 3.1
現在你已經擁有精準導演 Veo 的框架。掌握這些技巧的最佳方式就是將它們應用在實際案例中。
對於開發者和企業用戶,改進的 Veo 3.1 模型已在 Vertex AI 上提供預覽版本,可透過 API 存取。這讓你可以實驗這些進階提示工作流程,並直接在自己的應用程式中建立強大、可控的影片生成能力。
結語
從「提示並祈禱」到精準的創意控制,Veo 3.1 為 AI 影片生成開啟了新的可能性。通過掌握電影語言、音效設計、工作流程整合和進階提示技巧,你可以像專業導演一樣,將創意願景轉化為高品質的 AI 影片。
參考資料:Google Cloud Blog - Ultimate prompting guide for Veo 3.1