
如果你最近有在用 Google Gemini 生成圖片,應該會發現它的圖像生成能力變得愈來愈強大了。特別是升級到 Gemini 2.5 Flash Image 之後,不管是角色一致性、局部編輯還是多圖合成,都有明顯的進步。不過就算 AI 再厲害,如果你不知道怎麼下指令,還是很難得到理想的結果。好消息是,Google 官方在部落格上公開了一份完整的提示詞撰寫指南(https://blog.google/products/gemini/image-generation-prompting-tips/),,教大家怎麼用更有效的方式跟 Gemini 溝通,讓它生成的圖片更符合你的想像。
Gemini 2.5 Flash Image 到底強在哪裡
在開始學習提示詞技巧之前,我們先來了解一下 Gemini 最新的圖像生成模型有哪些核心能力。這樣你才知道可以用它來做些什麼事情。首先是角色一致性,這是很多人最在意的功能。現在 Gemini 可以在不同的姿勢、光線和場景下,保持同一個角色或物件的外觀特徵,這對於想要創作系列圖片或角色設計的人來說非常實用。
再來是創意構圖能力,Gemini 能夠把完全不同的元素、主體和風格融合成一張統一協調的圖像。比如說你可以把太空人和雨林籃球場結合在一起,創造出超現實的視覺效果。局部編輯功能也很強大,你可以用簡單的語言描述,就能精準修改圖片中的特定區域,不需要動用複雜的修圖軟體。
此外,Gemini 還能進行設計與外觀應用,也就是把某個概念的風格、紋理或設計套用到另一個物件上。最後一個重點是邏輯與推理能力,AI 具備理解現實世界關係的能力,可以生成複雜場景,甚至預測某個動作之後會發生什麼事。這些能力加起來,讓 Gemini 不只是一個單純的圖片生成工具,而是能夠理解你的創意需求並實現出來的智慧助手。
寫好提示詞的六個關鍵元素
Google 官方建議,如果你只是輸入簡單的描述,像是「一隻在草原上奔跑的狗」,Gemini 還是能生成不錯的結果。但如果你想要更貼近想像中的畫面,或是想控制更多細節,就應該在提示詞中包含六個核心元素。這些元素就像是給 AI 的完整說明書,讓它知道你到底想要什麼樣的圖片。
第一個元素是主體,也就是圖像中的核心角色或物件是誰。這裡要盡可能具體描述,不要只說「一個機器人」,而是要說「一個有發光藍色光學眼的冷面機器人咖啡師」。愈詳細的描述,AI 就愈能準確呈現你要的樣子。第二個元素是構圖,也就是鏡頭的取景角度與視覺呈現方式,像是特寫、廣角、低角度拍攝或肖像等等。
第三個元素是動作,要描述場景中正在發生什麼事。是在沖咖啡、施展魔法,還是在田野中奔跑?動作能讓畫面更有生命力和故事性。第四個元素是地點,也就是情境發生的環境與背景。你可以具體描述像是「火星上的未來咖啡館」或「黃金時段陽光灑落的草地」這類有畫面感的場景。
第五個元素是風格,這決定了整體的美學與視覺感受。你可以要求 3D 動畫、黑色電影、水彩畫、寫實攝影或 1990 年代產品攝影等不同風格。最後一個元素是編輯指示,這是當你要修改現有圖像時使用的。這時候要用直接且明確的描述,像是「把男人的領帶換成綠色」或「移除背景中的汽車」。把這六個元素組合起來,就能寫出一個完整且有效的提示詞。
Gemini 圖像生成功能的關鍵特性
在使用之前,Google 建議先了解 Gemini 升級後有哪些改進之處,以便思考適合嘗試的應用場景:
- 一致的角色設計:在多次生成與編輯過程中,保持角色或物件外觀的一致性。
- 創意構圖:將多個概念中截然不同的元素、主題與風格融合為一張統一且和諧的圖像。
- 局部編輯:透過簡單的語言,對圖像的特定區域進行精確編輯。
- 設計與外觀適應:將某個概念的風格、質感或設計套用至另一個概念上。
- 邏輯與推理能力:運用對現實世界的理解,生成複雜場景或預測序列中的下一步。
構建有效提示詞的 6 個要素
你只需輸入簡單的一兩句話,就能在 Gemini 中獲得不錯的結果。然而,若想獲得最佳效果並實現更細膩的創意控制,建議在提示詞中包含以下要素:
- 主體(Subject):圖像中的人物或物體是誰/什麼?請具體描述。(例如:一位神情堅毅的機器人咖啡師,擁有發出藍光的光學鏡片;一隻毛茸茸的三花貓,戴著一頂迷你巫師帽。)
- 構圖(Composition):畫面如何取景?(例如:極端特寫 extreme close-up、廣角鏡頭 wide shot、低角度拍攝 low angle shot、人像構圖 portrait。)
- 動作(Action):正在發生什麼事?(例如:正在沖煮一杯咖啡 brewing a cup of coffee、施展魔法咒語 casting a magical spell、在田野中奔跑的瞬間 mid-stride running through a field。)
- 場景(Location):場景發生在哪裡?(例如:火星上的未來主義咖啡館 a futuristic cafe on Mars、堆滿物品的煉金術師圖書館 a cluttered alchemist’s library、黃金時段陽光灑落的草地 a sun-drenched meadow at golden hour。)
- 風格(Style):整體美學風格為何?(例如:3D 動畫 3D animation、黑色電影 film noir、水彩畫 watercolor painting、寫實攝影 photorealistic、1990 年代產品攝影 1990s product photography。)
- 編輯指令(Editing Instructions):若要修改現有圖像,請直接且具體說明。(例如:將男子的領帶改成綠色 change the man’s tie to green、移除背景中的汽車 remove the car in the background。)
提示範例:創意技巧展示
不同的提示策略可以解鎖各種功能,從照片級的逼真編輯到奇幻的新世界。以下是五種技巧,每種技巧都附有關鍵範例。
1.Preserve characters’ appearances. / 保留角色外觀的一致性
Gemini 能在不同姿勢、光照與環境下維持人物或角色的外觀特徵,甚至能將同一角色套用至全新的風格與材質上。以下範例展示如何在同一對話中,於多個提示詞中重複使用同一個角色:
Prompt 1:A whimsical illustration of a tiny, glowing mushroom sprite. The sprite has a large, bioluminescent mushroom cap for a hat, wide, curious eyes, and a body made of woven vines. / 提示詞 1: 一幅充滿奇想風格的插畫,描繪一隻微小發光的蘑菇精靈。這隻精靈頭戴一頂巨大的生物發光蘑菇帽,有著一雙大而好奇的眼睛,身體由編織而成的藤蔓構成。
Prompt 2 (in the same conversation):Now, show the same sprite riding on the back of a friendly, moss-covered snail through a sunny meadow full of colorful wildflowers. / 提示詞 2(同一對話中): 現在,請描繪同一隻精靈騎在一隻友善、覆滿青苔的蝸牛背上,穿過一片陽光明媚、盛開著繽紛野花的草地。
透過在第一個提示中清楚定義人物並添加具體細節,你可以透過後續提示將同一個人物置於全新的脈絡中。在這裡,Gemini 保留了角色的關鍵特徵,例如臉部特徵、獨特的外觀和衣著。
2. Make targeted transformations with precision. / 精準執行局部變換
透過升級後的圖像編輯功能,您能對照片進行快速且高度精確的修改,無論是製作產品示意圖,還是修飾個人照片,都非常理想。以下為範例:
- Prompt 1:A high-quality photo of a modern, minimalist living room with a grey sofa, a light wood coffee table, and a large potted plant. / 提示詞 1: 一張高品質照片,呈現現代極簡風格的客廳,內有一張灰色沙發、淺色木質茶几,以及一盆大型盆栽。
- Prompt 2 (editing):Change the sofa’s color to a deep navy blue. / 提示詞 2(編輯): 將沙發顏色改為深海軍藍。
- Prompt 3 (editing):Now, add a stack of three books to the coffee table. / 提示詞 3(編輯): 現在,在茶几上添加一疊三本書。
這展現了 Gemini 在局部編輯方面的優勢。透過直接且口語化的指令,您就能修改圖像中的特定元素,無需使用複雜的軟體,也無需重新生成整個場景。
3. Blend concepts with creative composition. / 以創意構圖融合多重概念
嘗試將兩個或更多想法融合為一張引人注目的圖像。請 Gemini 生成兩張圖片,再以富想像力的方式結合它們的主體與場景:
- Prompt 1:Generate a photorealistic picture of an astronaut in a helmet and full suit. / 提示詞 1: 生成一張寫實風格的圖片,描繪一名戴著頭盔、身穿全套太空服的太空人。
- Prompt 2:A picture of an overgrown basketball court in the rainforest. / 提示詞 2: 一張位於熱帶雨林中、被植物覆蓋的籃球場圖片。
- Prompt 3 (upload both and combine):Show the astronaut dunking a basketball in this court. / 提示詞 3(上傳兩張並融合): 描繪這名太空人在該籃球場上灌籃的畫面。
4. Adapt and apply new styles. / 適應並套用全新風格
透過套用新的風格、色彩調性或質感,徹底改變圖像的氛圍與美學,同時完整保留原始主體。
- Prompt 1:A photorealistic image of a classic motorcycle parked on a city street. / 提示詞 1: 一張寫實風格的圖片,描繪一輛經典機車停放在城市街道上。
- Prompt 2 (editing):Apply the style of an architectural drawing to this image. / 提示詞 2(編輯): 將此圖像轉換為建築製圖風格。
透過「風格轉換」,Gemini 能理解圖像的核心主體(機車)及其形態,並以所要求的藝術風格重新渲染整個畫面。此功能可用於設計靈感發想、藝術探索等多種用途。
5. Use logic and reasoning for complex generation. / 運用邏輯與推理進行複雜生成
提供 Gemini 一個簡單概念,讓其推理能力自動補全細節。這對於需要理解現實世界關係或流程的內容創作特別實用。
- Prompt 1:Generate an image of a person standing holding a 3 tiered cake. / 提示詞 1: 生成一張人物站立並手持三層蛋糕的圖片。
- Prompt 2 (in the same session):Generate an image showing what would happen if they tripped. / 提示詞 2(同一對話中): 生成一張圖片,呈現此人若絆倒後會發生的情況。
此範例展現 Gemini 如何運用邏輯與推理能力預測接下來的發展。模型理解第一張圖的脈絡與物理情境——人物正小心翼翼地平衡著蛋糕——進而模擬出「絆倒」這一動作可能引發的合理後果,生成一張動態且符合情境的新圖像。
Google 這次公開的 5 大提示詞技巧,其實就是在教我們怎麼更有效地跟 AI 溝通。與其把 Gemini 當作一個聽不太懂人話的工具,不如把它想像成一個需要詳細指示的助手。當你提供的資訊愈完整、描述愈具體,它就愈能理解你想要什麼,然後生成符合期待的結果。
這些技巧從角色一致性到邏輯推理,涵蓋了圖像生成的各種應用情境。不管你是想要創作系列角色、精確編輯照片、融合不同概念,還是嘗試風格轉換,都能在這裡找到對應的方法。重點是要記住六個核心元素:主體、構圖、動作、地點、風格和編輯指示,把這些元素組合起來,就能寫出有效的提示詞。
雖然目前 Gemini 在某些方面還有限制,像是文字渲染和長寬比控制,但整體來說已經是一個非常強大的圖像生成工具。隨著 Google 持續改進和更新,這些限制應該會逐漸被解決。現在就是開始練習和探索的好時機,透過不斷嘗試和調整,你會發現 AI 圖像生成的可能性遠比想像中還要廣闊。