Google 官方親授！範例帶你實戰 Gemini 最佳圖像生成和編輯效果技巧

如果你最近有在用 Google Gemini 生成圖片，應該會發現它的圖像生成能力變得愈來愈強大了。特別是升級到 Gemini 2.5 Flash Image 之後，不管是角色一致性、局部編輯還是多圖合成，都有明顯的進步。不過就算 AI 再厲害，如果你不知道怎麼下指令，還是很難得到理想的結果。好消息是，Google 官方在部落格上公開了一份完整的提示詞撰寫指南(https://blog.google/products/gemini/image-generation-prompting-tips/),，教大家怎麼用更有效的方式跟 Gemini 溝通，讓它生成的圖片更符合你的想像。

Gemini 2.5 Flash Image 到底強在哪裡

在開始學習提示詞技巧之前，我們先來了解一下 Gemini 最新的圖像生成模型有哪些核心能力。這樣你才知道可以用它來做些什麼事情。首先是角色一致性，這是很多人最在意的功能。現在 Gemini 可以在不同的姿勢、光線和場景下，保持同一個角色或物件的外觀特徵，這對於想要創作系列圖片或角色設計的人來說非常實用。

再來是創意構圖能力，Gemini 能夠把完全不同的元素、主體和風格融合成一張統一協調的圖像。比如說你可以把太空人和雨林籃球場結合在一起，創造出超現實的視覺效果。局部編輯功能也很強大，你可以用簡單的語言描述，就能精準修改圖片中的特定區域，不需要動用複雜的修圖軟體。

此外，Gemini 還能進行設計與外觀應用，也就是把某個概念的風格、紋理或設計套用到另一個物件上。最後一個重點是邏輯與推理能力，AI 具備理解現實世界關係的能力，可以生成複雜場景，甚至預測某個動作之後會發生什麼事。這些能力加起來，讓 Gemini 不只是一個單純的圖片生成工具，而是能夠理解你的創意需求並實現出來的智慧助手。

寫好提示詞的六個關鍵元素

Google 官方建議，如果你只是輸入簡單的描述，像是「一隻在草原上奔跑的狗」，Gemini 還是能生成不錯的結果。但如果你想要更貼近想像中的畫面，或是想控制更多細節，就應該在提示詞中包含六個核心元素。這些元素就像是給 AI 的完整說明書，讓它知道你到底想要什麼樣的圖片。

第一個元素是主體，也就是圖像中的核心角色或物件是誰。這裡要盡可能具體描述，不要只說「一個機器人」，而是要說「一個有發光藍色光學眼的冷面機器人咖啡師」。愈詳細的描述，AI 就愈能準確呈現你要的樣子。第二個元素是構圖，也就是鏡頭的取景角度與視覺呈現方式，像是特寫、廣角、低角度拍攝或肖像等等。

第三個元素是動作，要描述場景中正在發生什麼事。是在沖咖啡、施展魔法，還是在田野中奔跑？動作能讓畫面更有生命力和故事性。第四個元素是地點，也就是情境發生的環境與背景。你可以具體描述像是「火星上的未來咖啡館」或「黃金時段陽光灑落的草地」這類有畫面感的場景。

第五個元素是風格，這決定了整體的美學與視覺感受。你可以要求 3D 動畫、黑色電影、水彩畫、寫實攝影或 1990 年代產品攝影等不同風格。最後一個元素是編輯指示，這是當你要修改現有圖像時使用的。這時候要用直接且明確的描述，像是「把男人的領帶換成綠色」或「移除背景中的汽車」。把這六個元素組合起來，就能寫出一個完整且有效的提示詞。

§相關文章，還可以參閱：

Gemini 圖像生成功能的關鍵特性

在使用之前，Google 建議先了解 Gemini 升級後有哪些改進之處，以便思考適合嘗試的應用場景：

一致的角色設計：在多次生成與編輯過程中，保持角色或物件外觀的一致性。
創意構圖：將多個概念中截然不同的元素、主題與風格融合為一張統一且和諧的圖像。
局部編輯：透過簡單的語言，對圖像的特定區域進行精確編輯。
設計與外觀適應：將某個概念的風格、質感或設計套用至另一個概念上。
邏輯與推理能力：運用對現實世界的理解，生成複雜場景或預測序列中的下一步。

構建有效提示詞的 6 個要素

你只需輸入簡單的一兩句話，就能在 Gemini 中獲得不錯的結果。然而，若想獲得最佳效果並實現更細膩的創意控制，建議在提示詞中包含以下要素：

主體（Subject）：圖像中的人物或物體是誰／什麼？請具體描述。（例如：一位神情堅毅的機器人咖啡師，擁有發出藍光的光學鏡片；一隻毛茸茸的三花貓，戴著一頂迷你巫師帽。）
構圖（Composition）：畫面如何取景？（例如：極端特寫 extreme close-up、廣角鏡頭 wide shot、低角度拍攝 low angle shot、人像構圖 portrait。）
動作（Action）：正在發生什麼事？（例如：正在沖煮一杯咖啡 brewing a cup of coffee、施展魔法咒語 casting a magical spell、在田野中奔跑的瞬間 mid-stride running through a field。）
場景（Location）：場景發生在哪裡？（例如：火星上的未來主義咖啡館 a futuristic cafe on Mars、堆滿物品的煉金術師圖書館 a cluttered alchemist’s library、黃金時段陽光灑落的草地 a sun-drenched meadow at golden hour。）
風格（Style）：整體美學風格為何？（例如：3D 動畫 3D animation、黑色電影 film noir、水彩畫 watercolor painting、寫實攝影 photorealistic、1990 年代產品攝影 1990s product photography。）
編輯指令（Editing Instructions）：若要修改現有圖像，請直接且具體說明。（例如：將男子的領帶改成綠色 change the man’s tie to green、移除背景中的汽車 remove the car in the background。）

提示範例：創意技巧展示

不同的提示策略可以解鎖各種功能，從照片級的逼真編輯到奇幻的新世界。以下是五種技巧，每種技巧都附有關鍵範例。

1.Preserve characters’ appearances. / 保留角色外觀的一致性

Gemini 能在不同姿勢、光照與環境下維持人物或角色的外觀特徵，甚至能將同一角色套用至全新的風格與材質上。以下範例展示如何在同一對話中，於多個提示詞中重複使用同一個角色：

Prompt 1：A whimsical illustration of a tiny, glowing mushroom sprite. The sprite has a large, bioluminescent mushroom cap for a hat, wide, curious eyes, and a body made of woven vines. / 提示詞 1：一幅充滿奇想風格的插畫，描繪一隻微小發光的蘑菇精靈。這隻精靈頭戴一頂巨大的生物發光蘑菇帽，有著一雙大而好奇的眼睛，身體由編織而成的藤蔓構成。

Prompt 2 (in the same conversation)：Now, show the same sprite riding on the back of a friendly, moss-covered snail through a sunny meadow full of colorful wildflowers. / 提示詞 2（同一對話中）：現在，請描繪同一隻精靈騎在一隻友善、覆滿青苔的蝸牛背上，穿過一片陽光明媚、盛開著繽紛野花的草地。

透過在第一個提示中清楚定義人物並添加具體細節，你可以透過後續提示將同一個人物置於全新的脈絡中。在這裡，Gemini 保留了角色的關鍵特徵，例如臉部特徵、獨特的外觀和衣著。

2. Make targeted transformations with precision. / 精準執行局部變換

透過升級後的圖像編輯功能，您能對照片進行快速且高度精確的修改，無論是製作產品示意圖，還是修飾個人照片，都非常理想。以下為範例：

Prompt 1：A high-quality photo of a modern, minimalist living room with a grey sofa, a light wood coffee table, and a large potted plant. / 提示詞 1：一張高品質照片，呈現現代極簡風格的客廳，內有一張灰色沙發、淺色木質茶几，以及一盆大型盆栽。
Prompt 2 (editing)：Change the sofa’s color to a deep navy blue. / 提示詞 2（編輯）：將沙發顏色改為深海軍藍。
Prompt 3 (editing)：Now, add a stack of three books to the coffee table. / 提示詞 3（編輯）：現在，在茶几上添加一疊三本書。

這展現了 Gemini 在局部編輯方面的優勢。透過直接且口語化的指令，您就能修改圖像中的特定元素，無需使用複雜的軟體，也無需重新生成整個場景。

3. Blend concepts with creative composition. / 以創意構圖融合多重概念

嘗試將兩個或更多想法融合為一張引人注目的圖像。請 Gemini 生成兩張圖片，再以富想像力的方式結合它們的主體與場景：

Prompt 1：Generate a photorealistic picture of an astronaut in a helmet and full suit. / 提示詞 1：生成一張寫實風格的圖片，描繪一名戴著頭盔、身穿全套太空服的太空人。
Prompt 2：A picture of an overgrown basketball court in the rainforest. / 提示詞 2：一張位於熱帶雨林中、被植物覆蓋的籃球場圖片。
Prompt 3 (upload both and combine)：Show the astronaut dunking a basketball in this court. / 提示詞 3（上傳兩張並融合）：描繪這名太空人在該籃球場上灌籃的畫面。

4. Adapt and apply new styles. / 適應並套用全新風格

透過套用新的風格、色彩調性或質感，徹底改變圖像的氛圍與美學，同時完整保留原始主體。

Prompt 1：A photorealistic image of a classic motorcycle parked on a city street. / 提示詞 1：一張寫實風格的圖片，描繪一輛經典機車停放在城市街道上。
Prompt 2 (editing)：Apply the style of an architectural drawing to this image. / 提示詞 2（編輯）：將此圖像轉換為建築製圖風格。

透過「風格轉換」，Gemini 能理解圖像的核心主體（機車）及其形態，並以所要求的藝術風格重新渲染整個畫面。此功能可用於設計靈感發想、藝術探索等多種用途。

5. Use logic and reasoning for complex generation. / 運用邏輯與推理進行複雜生成

提供 Gemini 一個簡單概念，讓其推理能力自動補全細節。這對於需要理解現實世界關係或流程的內容創作特別實用。

Prompt 1：Generate an image of a person standing holding a 3 tiered cake. / 提示詞 1：生成一張人物站立並手持三層蛋糕的圖片。
Prompt 2 (in the same session)：Generate an image showing what would happen if they tripped. / 提示詞 2（同一對話中）：生成一張圖片，呈現此人若絆倒後會發生的情況。

此範例展現 Gemini 如何運用邏輯與推理能力預測接下來的發展。模型理解第一張圖的脈絡與物理情境——人物正小心翼翼地平衡著蛋糕——進而模擬出「絆倒」這一動作可能引發的合理後果，生成一張動態且符合情境的新圖像。

Google 這次公開的 5 大提示詞技巧，其實就是在教我們怎麼更有效地跟 AI 溝通。與其把 Gemini 當作一個聽不太懂人話的工具,不如把它想像成一個需要詳細指示的助手。當你提供的資訊愈完整、描述愈具體,它就愈能理解你想要什麼,然後生成符合期待的結果。

這些技巧從角色一致性到邏輯推理,涵蓋了圖像生成的各種應用情境。不管你是想要創作系列角色、精確編輯照片、融合不同概念,還是嘗試風格轉換,都能在這裡找到對應的方法。重點是要記住六個核心元素:主體、構圖、動作、地點、風格和編輯指示,把這些元素組合起來,就能寫出有效的提示詞。

雖然目前 Gemini 在某些方面還有限制,像是文字渲染和長寬比控制,但整體來說已經是一個非常強大的圖像生成工具。隨著 Google 持續改進和更新,這些限制應該會逐漸被解決。現在就是開始練習和探索的好時機,透過不斷嘗試和調整,你會發現 AI 圖像生成的可能性遠比想像中還要廣闊。

資料來源
網站網址：https://blog.google/products/gemini/image-generation-prompting-tips/