在人工智慧(AI)圖片生成這個競爭激烈的領域,戰火從未停歇。2024 年 12 月,OpenAI 終於推出了眾所期待的全新圖像生成模型——GPT Image 1.5,並直接整合進 ChatGPT。此舉被視為直接挑戰其主要競爭對手 Google Gemini 3 旗下的 Nano Banana Pro 圖像模型。
根據 TechCrunch 報導,這是 OpenAI 在 Sam Altman 宣布「Code Red」計畫後的最新反擊。然而,這場對決的結果並非簡單的「誰更強」。本文將深入剖析第一手實測比較後,提煉出五個最令人驚訝且具影響力的發現。
亮點一:隱藏在純文字中的秘密功能——肖像保留
這次更新中最有趣的新功能之一,OpenAI 卻選擇將它「完全藏了起來」。這個功能叫做「肖像保留(Likeness Retention)」,允許使用者進行一次性的肖像上傳,讓 ChatGPT 學習你的樣貌,然後在未來的圖像生成中反覆使用,無需每次都重新上傳照片。
這個功能並未出現在官方發布的主要新聞稿中,而是被眼尖的使用者在文章的一張資訊圖的「提示文字」中發現的。這個概念與 OpenAI 影片模型 Sora 2 中名為「Cameo」的功能非常相似,只是這是圖像版本。對於經常需要生成自己圖像的創作者來說——例如製作 YouTube 影片縮圖——這項功能無疑將節省大量時間。
亮點二:更快、更便宜——4 倍速度提升與 20% 成本降低
根據 OpenAI 官方 API 文件,GPT Image 1.5 在實用性方面帶來了兩個關鍵的改進:
- 速度:新模型生成圖像的速度比前一個版本快了高達 4 倍
- 成本:API 的成本降低了約 20%
這不僅僅是數字上的變化。更快的生成速度從根本上改變了人們使用這類工具的頻率和心態,讓圖像生成從一種偶爾為之的新奇玩意,變成了更貼近日常工作的實用工具。對於開發者和企業用戶來說,這代表著更低的運營成本和更高的工作效率。
亮點三:終於能真正「讀懂」和「寫出」文字了
過去,讓 AI 在圖像中準確生成可讀的文字一直是一大挑戰。GPT Image 1.5 在這方面取得了突破性的進展。
在 OpenAI 的展示中,模型成功生成了一張極其逼真的報紙照片,上面不僅包含了完整的 Markdown 格式文章,連標題、格式和數字都完全正確。根據 VentureBeat 的報導,這對許多實際應用場景來說是一個遊戲規則的改變者,無論是製作產品模型、行銷素材、UI 概念圖還是產品照片,準確的文字渲染能力都將大大提升其實用價值。
亮點四:ChatGPT Image 1.5 vs Nano Banana Pro——一場激烈的拉鋸戰
那麼,GPT Image 1.5 與競爭對手 Google 的 Nano Banana Pro(Gemini 3 Pro Image)相比,究竟誰更勝一籌?根據一系列的對比測試,答案並不是非黑即白。
五項關鍵對比
| 測試項目 | ChatGPT Image 1.5 | Nano Banana Pro |
| 多步驟編輯 | 記憶整個提示序列方面表現更佳 | 維持圖像一致性更出色 |
| 文字渲染 | ✅ 明顯勝出,文字更清晰 | 表現良好 |
| 人群生成 | 表現良好 | ✅ 生成的人群更真實自然 |
| 品牌一致性 | ✅ 打成平手 | ✅ 打成平手 |
| 人臉保留 | ✅ 整體更穩定 | 表現良好 |
實測案例分析
根據實測比較,不同任務有不同的最佳選擇:
- 初始生成「風箏衝浪者」:Nano Banana Pro 的表現「好得多」,人體比例更為準確
- 編輯同一張圖片(增加海鷗和高度):ChatGPT Image 1.5 在編輯方面「做得更好」
- 製作 YouTube 縮圖:從「平面設計角度」看,Nano Banana Pro 更佳;但若要讓「臉孔看起來像本人」,ChatGPT Image 1.5 更出色
這完美說明了:討論「誰是絕對的贏家」已無意義。在生成初始概念時,你可能會選擇 Gemini;但在需要精準人臉保留或後續編輯時,ChatGPT 可能是更可靠的夥伴。
亮點五:全新使用者體驗——為「普通人」而設計
除了模型本身,OpenAI 還在 ChatGPT 內部推出了一個全新的圖像生成體驗。在側邊欄中,現在有了一個專屬的「圖像(Images)」分頁,這標誌著圖像生成正從一個附加功能,轉變為 OpenAI 的核心服務之一。
這個新介面提供了:
- 預設的視覺風格選項(普普藝術、素描、毛絨玩具風格等)
- 探索功能,推薦時下熱門的提示詞和用法
- 圖像庫,方便管理已生成的圖片
這顯然是 OpenAI 正在為普通人進行優化——他們只想要一種風格,而不想成為提示詞工程師。
策略目標:不是「超越」,而是「並駕齊驅」
這次更新背後隱藏著一個更宏大的策略故事:OpenAI 的主要目標並非要徹底超越 Gemini,而是要與其達到「並駕齊驅」的水平,從而消除用戶轉移平台的理由。
從結果來看,OpenAI 成功達成了這個任務。結合最近的 GPT-5.2 模型更新,對於已經身處 OpenAI 生態系的用戶來說,現在「沒有太多理由需要轉向 Gemini」。
GPT Image 1.5 技術規格一覽
| 項目 | 規格 |
| 模型名稱 | GPT Image 1.5(gpt-image-1.5) |
| 生成速度 | 比前代快 4 倍 |
| API 成本 | 比前代降低 20% |
| 主要改進 | 指令遵循、圖像編輯、文字渲染、人臉保留 |
| 整合平台 | ChatGPT、OpenAI API |
| 商業使用 | 允許(用戶需對內容負責) |
結論:這是它最差的樣子
GPT Image 1.5 無疑是一次令人印象深刻的升級,但更重要的是,它是一個快速演進過程中的一個節點。AI 技術的發展日新月異,今天的驚喜很快就會成為明天的常態。
誠如圈內人所言:從今往後,這就是它最差的表現了。
ChatGPT 和 Gemini 在圖片生成與編輯能力上已基本持平。現在,用戶的選擇更多地取決於個人偏好、現有的工作流程,以及像是「在圖片編輯中精準保留人臉特徵」這類特定但關鍵的需求。這場競爭已從單純的技術競賽,演變為一場關乎用戶體驗與生態系的拉鋸戰。
延伸閱讀
想了解更多 AI 圖像生成的最新發展?請參考: