wen aidev 提供哪些開發服務？

提供品牌網站開發、AI 專案開發、後端 API 合作開發，以及 AI Chatbot 與企業自動化整合服務，技術棧涵蓋 React、AWS、Azure。

wen aidev 的部落格主要寫什麼內容？

主要涵蓋 AI Agent 技術研究、Claude Code 教學系列、Agentic Coding 工具比較（如 GSD、BMAD 框架）、現代軟體測試與 AI 實戰，以及免費開發資源分享。

如何聯絡 wen aidev 洽談合作？

可透過 Email（a87088@gmail.com）聯繫，也可以透過 GitHub、Facebook 或 LinkedIn 社群平台取得聯繫。

什麼是 Agentic Coding？wen aidev 有相關教學嗎？

Agentic Coding 是讓 AI Agent 自主撰寫、測試與除錯程式碼的開發方式。wen aidev 有完整系列文章，包含 GSD、Superpowers、Agent Teams 等熱門框架的比較與實戰教學。

Gemini 3 圖像生成：概念、怎麼用、怎樣用出效果

先講一個使用 AI 圖像工具的常見痛點：

你用 MidJourney 生了一張你很滿意的圖，背景超棒、光線完美——但主角的手長得很怪。你開始改 prompt，重新生成，新的圖手正常了，景色又跑掉了。再改，再跑，來回折騰。

有沒有辦法直接說「就這張，把手修掉」？

Gemini 3 做的就是這件事。

Gemini 3 圖像生成的核心概念

Gemini 3 不是要跟 MidJourney 拼「誰的圖更漂亮」，它走的是完全不同的路：對話式設計。

你跟它說話，它幫你改。不需要重新打 prompt、不需要重新生成整張圖、不用學一堆參數。就像你在跟一個設計師講需求，他幫你執行，你說「再往右移一點」他就往右移，而不是從頭畫一張新的。

兩個模型：

Gemini 3 Pro Image：最高品質，搭載 World Simulator 推理引擎，處理複雜場景更準——建議需要最終稿品質的時候用
Gemini 3.1 Flash Image：速度快、便宜，適合大量產出或反覆測試方向

實際操作：多輪對話怎麼用

最基本的入口是 Google AI Studio（aistudio.google.com），免費帳號就可以試，選 Gemini 3 模型，直接在對話框說：

你：畫一隻賽博龐克風格的貓，霓虹燈背景
→ [Gemini 生成圖片]

你：把背景換成雨夜的東京街道，貓不要變
→ [只換背景，貓保留]

你：在圖片右上角加 "CYBER CAT" 霓虹文字
→ [加上文字]

圖：每一輪只需說要改什麼，Gemini 記住整個上下文，不需要重複說整張圖的描述

關鍵是——你只需要說**「改什麼」**，不用重新告訴它整張圖長什麼樣。這在反覆微調同一個設計的時候省了非常多時間。

14 張參考圖是什麼意思？怎麼用？

這個功能聽起來很技術，實際上很直覺：你可以同時丟多張圖給 Gemini，讓它「混出」你想要的結果。

最常見的使用場景：

品牌素材：把你的 Logo、官方色票截圖、產品照片各丟幾張，Gemini 會生成符合品牌調性的新圖，不用每次從頭描述品牌視覺。

角色一致性：你的虛構角色有 3 張不同角度的圖，但你需要他在一個新場景裡出現——丟進去，Gemini 會維持臉部和體型特徵，放進新場景。

氛圍混搭：你喜歡這張圖的色調、那張圖的構圖、另一張的光線——各截一張丟進去，跟它說「混合這三個的風格」。

Gemini 3 Pro Image 最多支援 14 張輸入（6 物件 + 5 人物圖 + 其他），但實際上 3-5 張通常就夠了，太多反而訊號互相干擾。

什麼時候 Gemini > MidJourney？

這不是非黑即白的選擇，兩者定位真的不同：

選 Gemini 的時機：

你有一張現成圖想局部修改（換背景、換顏色、加文字）
圖片裡需要有清晰可讀的文字（廣告 CTA、slogan、標註）
你需要快速大量產出同一個角色或風格的圖（參考圖輸入）
你在做資訊圖或圖表（Gemini 可以抓 Google 即時資料來生成）

選 MidJourney 的時機：

你想要一張「讓人眼睛一亮」的藝術效果圖
你不太確定要什麼，想要 AI 自由詮釋並驚喜你
你在做精緻的概念藝術、電影感畫面

換句話說：廣告素材、UI 配圖、品牌物料、表情包——Gemini 比較省事。你在做給客戶看的提案美圖或純藝術創作——MidJourney 更強。

Text Rendering：真的有這麼準嗎？

一直以來 AI 在「圖片裡寫字」這件事表現很糟。Gemini 3 Pro Image 是目前在這個面向最穩的選項之一。

實際用的感受是：

單行、常見字體：幾乎不會錯
中英文混排：大幅好轉，但複雜排版偶爾還是會跑
手寫風格字體：有時候很準，有時候字型對但字母還是會漏或錯

建議在 prompt 裡用引號框住要渲染的文字，例如：

幫我畫一張霓虹燈招牌，上面寫 "OPEN 24H"，背景是夜晚的街道

比起 加一個寫著 OPEN 24H 的招牌 這種寫法，引號會讓模型更確定哪個是要渲染的文字內容。

另外，Gemini 3 還支援「圖片內文字翻譯」——把你上傳圖片裡的英文翻成中文，同時盡量維持原排版位置。這在翻譯外文教材截圖或圖表時蠻實用。

World Simulator：感覺有差嗎？

Gemini 3 Pro Image 有一個叫 World Simulator 的推理機制，概念是：生成之前先「想一遍」整個場景的物理關係（光從哪來、影子朝哪邊、人物遮擋關係），而不是直接丟進去生成。

實際影響最明顯的地方：

多物件複雜 prompt：說了 5 個條件，每個都有顯示且位置對
光源一致性：日落光、室內燈、霓虹燈在同一個場景裡各自投射的方向對
遮擋關係：前景物件確實「蓋在」背景上面，不會浮空

Gemini 3 Flash 對應的是速度，這個引擎的效果在 Pro Image 上比較明顯。如果你只是要大量產圖測試方向，Flash 就夠了；要最終稿才換 Pro。

開發者怎麼接

透過 Gemini API，responseModalities 設成包含 IMAGE 就可以拿到圖片輸出：

from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3-pro-image",
    contents="畫一張符合台灣秋天氣圍的咖啡廳插圖，溫暖色調",
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"]
    ),
)

for part in response.candidates[0].content.parts:
    if part.inline_data:
        # inline_data.data 是 base64 圖片，inline_data.mime_type 是格式
        with open("output.png", "wb") as f:
            import base64
            f.write(base64.b64decode(part.inline_data.data))

多輪對話的話，把前幾輪的 Contents 一起帶入 contents list 即可維持上下文——Gemini 本身不主動記憶 session，上下文靠你傳入維持。

入門建議

第一次用的話，推薦這個順序：

先到 Google AI Studio 試免費額度，不要上來就花錢
第一個實驗：上傳一張自己的圖，叫它幫你改背景或換顏色——感受一下對話式編輯的速度
第二個實驗：叫它生一張含有清楚文字的圖，測試你的用途適不適合
如果這兩個實驗都符合你的需求，再考慮付費 Pro API

不合適的場景：你想要超強的藝術視覺效果，或者你需要完全客製化風格微調的 LoRA——這些去 ComfyUI + FLUX.2 或 MidJourney 會更適合。