- Published on
Gemini 3 圖像生成:概念、怎麼用、怎樣用出效果
Table of Contents
先講一個使用 AI 圖像工具的常見痛點:
你用 MidJourney 生了一張你很滿意的圖,背景超棒、光線完美——但主角的手長得很怪。你開始改 prompt,重新生成,新的圖手正常了,景色又跑掉了。再改,再跑,來回折騰。
有沒有辦法直接說「就這張,把手修掉」?
Gemini 3 做的就是這件事。
Gemini 3 圖像生成的核心概念
Gemini 3 不是要跟 MidJourney 拼「誰的圖更漂亮」,它走的是完全不同的路:對話式設計。
你跟它說話,它幫你改。不需要重新打 prompt、不需要重新生成整張圖、不用學一堆參數。就像你在跟一個設計師講需求,他幫你執行,你說「再往右移一點」他就往右移,而不是從頭畫一張新的。
兩個模型:
- Gemini 3 Pro Image:最高品質,搭載 World Simulator 推理引擎,處理複雜場景更準——建議需要最終稿品質的時候用
- Gemini 3.1 Flash Image:速度快、便宜,適合大量產出或反覆測試方向
實際操作:多輪對話怎麼用
最基本的入口是 Google AI Studio(aistudio.google.com),免費帳號就可以試,選 Gemini 3 模型,直接在對話框說:
你:畫一隻賽博龐克風格的貓,霓虹燈背景
→ [Gemini 生成圖片]
你:把背景換成雨夜的東京街道,貓不要變
→ [只換背景,貓保留]
你:在圖片右上角加 "CYBER CAT" 霓虹文字
→ [加上文字]
圖:每一輪只需說要改什麼,Gemini 記住整個上下文,不需要重複說整張圖的描述
關鍵是——你只需要說**「改什麼」**,不用重新告訴它整張圖長什麼樣。這在反覆微調同一個設計的時候省了非常多時間。
14 張參考圖是什麼意思?怎麼用?
這個功能聽起來很技術,實際上很直覺:你可以同時丟多張圖給 Gemini,讓它「混出」你想要的結果。
最常見的使用場景:
品牌素材:把你的 Logo、官方色票截圖、產品照片各丟幾張,Gemini 會生成符合品牌調性的新圖,不用每次從頭描述品牌視覺。
角色一致性:你的虛構角色有 3 張不同角度的圖,但你需要他在一個新場景裡出現——丟進去,Gemini 會維持臉部和體型特徵,放進新場景。
氛圍混搭:你喜歡這張圖的色調、那張圖的構圖、另一張的光線——各截一張丟進去,跟它說「混合這三個的風格」。
Gemini 3 Pro Image 最多支援 14 張輸入(6 物件 + 5 人物圖 + 其他),但實際上 3-5 張通常就夠了,太多反而訊號互相干擾。
什麼時候 Gemini > MidJourney?
這不是非黑即白的選擇,兩者定位真的不同:
選 Gemini 的時機:
- 你有一張現成圖想局部修改(換背景、換顏色、加文字)
- 圖片裡需要有清晰可讀的文字(廣告 CTA、slogan、標註)
- 你需要快速大量產出同一個角色或風格的圖(參考圖輸入)
- 你在做資訊圖或圖表(Gemini 可以抓 Google 即時資料來生成)
選 MidJourney 的時機:
- 你想要一張「讓人眼睛一亮」的藝術效果圖
- 你不太確定要什麼,想要 AI 自由詮釋並驚喜你
- 你在做精緻的概念藝術、電影感畫面
換句話說:廣告素材、UI 配圖、品牌物料、表情包——Gemini 比較省事。你在做給客戶看的提案美圖或純藝術創作——MidJourney 更強。
Text Rendering:真的有這麼準嗎?
一直以來 AI 在「圖片裡寫字」這件事表現很糟。Gemini 3 Pro Image 是目前在這個面向最穩的選項之一。
實際用的感受是:
- 單行、常見字體:幾乎不會錯
- 中英文混排:大幅好轉,但複雜排版偶爾還是會跑
- 手寫風格字體:有時候很準,有時候字型對但字母還是會漏或錯
建議在 prompt 裡用引號框住要渲染的文字,例如:
幫我畫一張霓虹燈招牌,上面寫 "OPEN 24H",背景是夜晚的街道
比起 加一個寫著 OPEN 24H 的招牌 這種寫法,引號會讓模型更確定哪個是要渲染的文字內容。
另外,Gemini 3 還支援「圖片內文字翻譯」——把你上傳圖片裡的英文翻成中文,同時盡量維持原排版位置。這在翻譯外文教材截圖或圖表時蠻實用。
World Simulator:感覺有差嗎?
Gemini 3 Pro Image 有一個叫 World Simulator 的推理機制,概念是:生成之前先「想一遍」整個場景的物理關係(光從哪來、影子朝哪邊、人物遮擋關係),而不是直接丟進去生成。
實際影響最明顯的地方:
- 多物件複雜 prompt:說了 5 個條件,每個都有顯示且位置對
- 光源一致性:日落光、室內燈、霓虹燈在同一個場景裡各自投射的方向對
- 遮擋關係:前景物件確實「蓋在」背景上面,不會浮空
Gemini 3 Flash 對應的是速度,這個引擎的效果在 Pro Image 上比較明顯。如果你只是要大量產圖測試方向,Flash 就夠了;要最終稿才換 Pro。
開發者怎麼接
透過 Gemini API,responseModalities 設成包含 IMAGE 就可以拿到圖片輸出:
from google import genai
from google.genai import types
client = genai.Client()
response = client.models.generate_content(
model="gemini-3-pro-image",
contents="畫一張符合台灣秋天氣圍的咖啡廳插圖,溫暖色調",
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"]
),
)
for part in response.candidates[0].content.parts:
if part.inline_data:
# inline_data.data 是 base64 圖片,inline_data.mime_type 是格式
with open("output.png", "wb") as f:
import base64
f.write(base64.b64decode(part.inline_data.data))
多輪對話的話,把前幾輪的 Contents 一起帶入 contents list 即可維持上下文——Gemini 本身不主動記憶 session,上下文靠你傳入維持。
入門建議
第一次用的話,推薦這個順序:
- 先到 Google AI Studio 試免費額度,不要上來就花錢
- 第一個實驗:上傳一張自己的圖,叫它幫你改背景或換顏色——感受一下對話式編輯的速度
- 第二個實驗:叫它生一張含有清楚文字的圖,測試你的用途適不適合
- 如果這兩個實驗都符合你的需求,再考慮付費 Pro API
不合適的場景:你想要超強的藝術視覺效果,或者你需要完全客製化風格微調的 LoRA——這些去 ComfyUI + FLUX.2 或 MidJourney 會更適合。