
OpenAI 在 2024 年 12 月 16 日正式發布了全新的 GPT Image 1.5 圖像生成模型,這次更新可以說是 ChatGPT 圖像功能自推出以來最重大的一次升級。如果你曾經使用過 ChatGPT 的圖像生成功能,應該會對新版本的表現感到驚艷。
這次 GPT Image 1.5 帶來了三大核心升級:
- 生成速度提升 4 倍:從輸入指令到產出圖像的時間大幅縮短
- 精準的指令遵循能力:能在編輯時保持光線、構圖和人物外觀的一致性
- 文字渲染能力大幅改善:圖片中的文字更清晰、更準確
除了功能升級,API 價格還降低了 20%,對開發者來說是個好消息。這次發布的時機也很有趣,據報導 OpenAI 原本計劃在明年 1 月才推出,但為了回應 Google Gemini 模型的競爭壓力,加速了發布時間表。
本文用 5 個實際案例帶你了解 GPT Image 1.5 的核心能力,讓你知道這個工具可以怎麼應用在日常工作中。
🔔 不錯過任何精彩! 立即訂閱我們的 LINE 官方帳號
每次發佈新文章時,您將會第一時間收到本站文章連結通知,輕鬆掌握最新資訊!
案例 1:商標設計快速生成
為什麼這個案例重要?
對創業者或設計師來說,Logo 設計往往需要經過多次討論和修改。傳統流程可能需要幾天甚至幾週,但現在你可以在幾分鐘內生成多個專業級的 Logo 變體,大幅加速初期的概念發想。
實際操作
假設你要為一家名為「Field & Flour」的本地麵包店設計 Logo,可以這樣下指令:
創建一個原創的商標,公司名稱是 Field & Flour,是一家本地麵包店。
Logo 應該溫暖、簡單、永恆。
使用乾淨的向量風格形狀,強烈的輪廓和平衡的負空間。
簡約設計優於細節,確保在大小尺寸下都清晰可讀。
平面設計、最小筆觸、無漸變。
白色背景,居中的單一 Logo,留有充足的邊距。
不要有浮水印。
關鍵技巧
- 描述品牌個性:「溫暖、簡單、永恆」這類形容詞能幫助 AI 理解品牌調性
- 強調實用性:說明「在大小尺寸下都清晰可讀」,確保 Logo 具備實用性
- 明確排除不需要的元素:「不要有浮水印」、「無漸變」這類限制能避免不必要的設計元素
- 一次生成多個變體:在 API 中可以設定
n=4 參數,一次產出 4 個版本供選擇
以下是產生的圖像,整體感覺相當好。
案例 2:照片級寫實圖像:展現驚人的細節表現力
為什麼這個案例重要?
GPT Image 1.5 在照片寫實度上有了質的飛躍。過去 AI 生成的人物照片常常有「太完美」、「不真實」的感覺,但新版本能呈現出真實的皮膚紋理、自然的光影,甚至是歲月痕跡。
實際操作
想像你需要一張老水手的照片作為文章配圖,可以這樣描述:
創建一張照片級寫實的照片,內容是一位年長的水手站在小漁船上。
他有風化的皮膚,可見的皺紋、毛孔和日曬質感,
手臂上有幾個褪色的傳統水手刺青。
他正在平靜地調整漁網,他的狗坐在甲板附近。
拍攝風格像 35mm 膠片照片,中近景、視線水平,使用 50mm 鏡頭。
柔和的海岸日光、淺景深、微妙的膠片顆粒、自然色彩平衡。
圖像應該感覺真誠且不做作,具有真實的皮膚紋理、
磨損的材質和日常細節。
不要美化,不要重度修飾。
關鍵技巧
- 使用攝影術語:「35mm 膠片」、「50mm 鏡頭」、「淺景深」這些詞彙能讓 AI 理解你要的視覺風格
- 強調真實感:「可見的皺紋、毛孔」、「磨損的材質」這類描述能避免過度完美的 AI 感
- 明確排除修飾:「不要美化,不要重度修飾」確保照片保持自然
- 設定品質參數:對於需要高細節的圖像,可以設定
quality="high"
案例 3:精準圖像編輯:只改你想改的,其他保持不變
為什麼這個案例重要?
這是 GPT Image 1.5 最強大的功能之一。過去的 AI 圖像編輯工具常常會「過度發揮」,你只是想改個顏色,結果整張圖的風格都變了。新版本能做到「外科手術式」的精準編輯,只改變你指定的部分。
實際操作:物體移除與顏色更換
假設你有一張人物照片,想要做以下調整:
移除 T 恤上的圖案:
移除白色 T 恤上的紅色條紋。
不要改變任何其他東西。
更換配件顏色:
將紅色帽子的顏色改為淺藍色天鵝絨材質。
不要改變任何其他東西。
關鍵技巧
- 明確指定要改變的部分:越具體越好,例如「白色 T 恤上的紅色條紋」
- 強調保持不變:「不要改變任何其他東西」這句話很重要,能避免不必要的變動
- 迭代優化:如果一次沒達到理想效果,用小步驟逐次調整
以上張所產的圖像為例,要求移除老漁夫的帽子,並未雙手添加手套,其餘不變。
案例 4:圖片內文字生成:清晰、準確的文字渲染
為什麼這個案例重要?
過去 AI 生成的圖片中,文字常常是最大的痛點——拼錯字、字體模糊、排版混亂。GPT Image 1.5 在這方面有了顯著改善,能處理更密集、更小的文字,對行銷人員和社群小編來說特別實用。
實際操作:產品廣告看板
假設你要為洗髮水產品製作一個高速公路廣告看板:
在日落時的高速公路場景中創建洗髮水的寫實廣告看板。
看板文字(完全一致,不要有額外字元):
「Fresh and clean」
字體:粗體無襯線體、高對比、置中、清晰字距。
確保文字只出現一次且完全清晰可讀。
不要有浮水印,不要有 Logo。
關鍵技巧
- 用引號或大寫標註文字:把要顯示的文字用「引號」框起來,或全部大寫
- 說明字體風格:「粗體無襯線體、高對比」這類描述能提高文字清晰度
- 強調準確性:「完全一致,不要有額外字元」能減少拼寫錯誤
- 對於複雜文字:可以逐字母拼寫,例如品牌名稱或特殊詞彙
案例 5:多圖合成與場景編輯:創意無限的視覺敘事
為什麼這個案例重要?
這個功能讓你可以從多張圖片中提取元素,組合成全新的場景。對攝影師、視覺設計師來說,這大幅簡化了過去需要在 Photoshop 中花數小時完成的合成工作。
實際操作:將不同圖片的元素組合
假設你想將自己的圖片,置入由 AI 生成的背景:
將第一張圖片中的小女孩完全保留:深棕色波波頭、髮髻高紮、溫暖微笑、灰色地球圖案T恤、藍色牛仔褲、紅色帆布鞋、雙手插在褲袋、站姿自然放鬆。
將她置入一個溫馨的聖誕節室內場景:背景是暖黃色燈光的客廳,背後有綁滿彩球和閃燈的聖誕樹,地上散落著包好的禮物盒(紅色絲帶、金色包裝紙),窗戶外飄著細雪,窗框結霜。
女孩臉頰微泛紅潤,彷彿剛從戶外進來,身上披著一條柔軟的米白色毛毯,毛毯一角輕搭在肩上。
整體畫面採用柔和的「35mm 膠片攝影」風格,光線從左側窗戶灑入,營造溫暖的逆光效果,人物輪廓有微微光暈。
色彩以暖調為主(紅、金、米白、深綠),避免過度飽和,保持真實質感。
不要改變女孩的五官、表情或服裝細節,僅替換背景與添加季節性配件。
關鍵技巧
- 清楚標註每張圖片
- 說明元素來源與目的地
- 強調一致性:「使用相同的光線風格」確保合成後看起來自然
開始使用 GPT Image 1.5:快速上手指南
如何存取 GPT Image 1.5?
目前有兩種方式可以使用:
- ChatGPT 網頁版/App(最簡單):
登入 ChatGPT(免費或付費帳號皆可,但付費帳號有更高的使用額度)
在對話框中直接輸入圖像生成或編輯指令
若要編輯圖片,點擊附件圖示上傳圖片後再下指令
- OpenAI API(適合開發者):
使用 gpt-image-1.5 模型
支援 quality 參數:low/medium/high
支援 input_fidelity 參數:提高編輯時的原圖保真度
支援 n 參數:一次生成多個變體
三步驟快速上手
步驟 1:從簡單指令開始
不用一開始就寫很複雜的提示詞,先用簡單的描述測試效果:
一隻可愛的橘貓坐在窗邊曬太陽
步驟 2:加入具體細節
看到初步結果後,加入更多具體細節:
一隻橘色虎斑貓坐在木製窗台上曬太陽,
溫暖的午後陽光從窗戶灑進來,
貓咪瞇著眼睛,表情很放鬆,
窗外是模糊的綠色植物,
照片級寫實風格
步驟 3:迭代優化
如果結果不完美,用小步驟調整:
讓光線更溫暖一些
或
把貓咪的毛色調整成更深的橘色
實用提示詞撰寫技巧
結構化你的提示詞
一個好的提示詞通常包含這些元素:
- 主體描述(必要):你想生成什麼?
- 風格定義(建議):攝影風格?插畫風格?
- 細節補充(依需求):光線、材質、顏色
- 限制條件(重要):不要什麼?要保持什麼?
範例:
[主體] 一位年輕女性在咖啡廳工作
[風格] 自然光線的紀實攝影風格
[細節] 她坐在窗邊,陽光從側面照進來,桌上有筆電和咖啡
[限制] 不要太多背景雜物,保持畫面簡潔
提高文字準確性的技巧
如果你需要在圖片中顯示特定文字:
- 把文字放在「引號」或全部大寫
- 說明字體風格(粗體、細體、襯線/無襯線)
- 說明文字位置(置中、左上、右下)
- 強調「完全一致,不要有額外字元」
保持編輯一致性的技巧
當你在編輯圖片時:
- 明確說「只改變 X」
- 加上「保持其他所有東西不變」
- 重複你想保留的重要元素(例如「保持臉部特徵」、「保持光線」)
- 使用「完全相同的」、「精確的」這類強調詞
限制與注意事項
雖然 GPT Image 1.5 功能強大,但還是有一些限制需要注意:
技術限制
- 文字準確性:雖然大幅改善,但複雜的文字(特殊字型、長段落)仍可能有錯誤
- 手部細節:人物手部的細節有時仍不夠自然
- 複雜場景一致性:在非常複雜的多物體場景中,偶爾會出現不合邏輯的元素
結語:AI 圖像生成的實用時代來臨
GPT Image 1.5 的推出,標誌著 AI 圖像生成工具從「實驗性質」邁向「實用工具」的重要轉折點。4 倍的速度提升意味著你可以在工作流程中更頻繁地使用它,而精準的編輯能力讓它不只是「生成漂亮圖片」,更能成為你創意過程中的得力助手。
透過這 5 個實戰案例,你應該已經看到了 GPT Image 1.5 的多樣化應用可能性:
- 商標設計:快速產出多個專業變體
- 照片級寫實:創造真實感十足的視覺內容
- 精準編輯:外科手術式的圖像修改
- 文字渲染:清晰準確的圖文整合
- 多圖合成:無限創意的視覺敘事
延伸閱讀: