Veo 3.1 不僅僅是另一個小數點更新

AI 影片生成這個競爭白熱化的領域,Google Veo 3.1 和 OpenAI Sora 的每一次更新都備受矚目。當我們看到版本號從 Veo 3.0 變成 Veo 3.1 時,直覺告訴我們這可能只是微小的調整。然而,這次的直覺是錯的。

在對 Google Veo 3.1 進行深度實測後,我們發現這次「小數點更新」實際上隱藏了幾個極具影響力的新功能。根據 Google 官方部落格,自 Veo 推出以來已在 Flow 平台上生成超過 2.75 億支影片。Veo 3.1 的推出讓這個數字持續攀升。

這篇文章將剖析我們在 Veo 3.1 測試中發現的五個最重要、最出乎意料的關鍵發現。


Veo 3.1 完整功能一覽表

在深入探討之前,先讓我們快速了解 Veo 3.1 帶來的主要新功能:

功能名稱功能描述支援模型主要用途
Add Object在現有影片中添加新物件Veo 3.1 Quality & Fast場景編輯、後期調整
Extend將影片延伸至 30 秒或更長Veo 3.1 Quality & Fast長影片創作、敘事延伸
Ingredients to Video組合 3 張圖片生成影片Veo 3.1 Fast多元素整合、品牌內容
Frames to Video起始與結束幀自動生成過渡Veo 3.1 Quality & Fast變形動畫、場景轉換
原生音效生成自動生成同步音效和對白Veo 3.1 Quality & Fast完整影片製作
提升的提示詞遵循更準確理解並執行指令Veo 3.1 Quality & Fast所有創作場景

1. 內容審查大逆轉:Veo 3.1 意外地寬鬆,Sora 反而變嚴格了

Veo 3.1 測試中最令人震驚的發現,是其內容審查政策。我們嘗試生成米老鼠、超級瑪利歐、蝙蝠俠和海綿寶寶等受版權保護角色,結果 Veo 3.1 竟然成功生成了這些內容。

這與 OpenAI 的 Sora 2 形成鮮明對比。Sora 在早期版本中對這類提示相對寬容,但現在因更嚴格的「護欄」而直接封鎖這些請求。根據 OpenAI 官方發布的 Sora 2 系統卡,新版本特別加強了對版權內容的審查機制。

Veo 3.1 測試結果顯示:

  • 米老鼠場景:成功生成,角色特徵清晰可辨
  • 超級瑪利歐:成功生成,包含標誌性紅帽子和鬍子
  • 蝙蝠俠:成功生成,具備標誌性黑色裝備
  • 海綿寶寶:成功生成,保留卡通風格特徵

這個結果完全顛覆了預期,畢竟大家普遍認為像 Google 這樣的大型企業會更加保守。但 Veo 3.1 採取了更開放的態度,為同人創作和風格化內容提供了更大的創作自由度。

當然,Google 在官方文件中明確指出 Veo 3.1 仍會阻擋有害請求,並使用 SynthID 數位浮水印技術標記所有 AI 生成影片。這種相對寬鬆的審查政策為創作者帶來新機會,但也引發了關於版權保護和負責任 AI 使用的重要討論。


2. 從「許願」到「導演」:Veo 3.1 的逐步編輯功能

Veo 3.1 最具革命性的更新在於影片編輯與擴展功能,代表了 AI 影片生成從一次性「許願式」提示轉變為可迭代、可微調的「導演式」流程。

Veo 3.1 的 Add Object 功能:精準控制的開始

根據 VentureBeat 的深度報導Veo 3.1 的「添加物件」(Add Object)功能讓創作者不再需要因小瑕疵就重做整個影片,而是可以像導演一樣對單一場景修改。

Veo 3.1 成功案例包括:

  • 在背景中添加靜態物件(懸浮太空船、建築物)
  • 在場景中加入動態元素(從門後走過的人物)
  • 插入與環境互動的物品(桌上咖啡杯、飛過的鳥)

Veo 3.1 目前的侷限性:

  1. 動靜不一:添加的物件有時是靜態的,有時能生成動態效果,穩定性待加強
  2. 無法移除:還不能移除不想要的東西,如意外出現的「兩個太陽」
  3. 無法變更:無法改變現有物件,如將光劍變成曲棍球棒

Veo 3.1 場景延展:突破時長限制

Veo 3.1 的「Extend」功能允許創作者將 8 秒影片延伸到 30 秒,甚至 1 分鐘以上。Google 開發者部落格指出,Veo 3.1 的每個新片段都基於前一片段的最後一秒生成,確保動作連貫性。

這項 Veo 3.1 功能賦予創作者前所未有的控制權,讓他們能不斷修正直到影片符合預期,而非一次次重新嘗試。這種迭代式創作方式更接近傳統影片製作流程,也更符合專業創作者需求。


3. Veo 3.1 的「三合一食譜」:Ingredients to Video 功能深度解析

Veo 3.1 推出的「Ingredients to Video」(素材轉影片)功能,讓使用者可以組合最多三張獨立圖片來引導影片生成:

  1. 角色圖片:定義主要人物或動物外觀
  2. 物品或服裝圖片:指定特定道具、服裝或配件
  3. 風格或環境圖片:設定整體視覺風格和場景氛圍

Veo 3.1 測試中,我們組合了測試者的臉部照片、一頂麋鹿帽圖片和糖果世界場景圖片,成功生成了一段在糖果世界裡戴著麋鹿帽跳舞的影片。三個不同來源的元素被 Veo 3.1 無縫整合,風格統一,毫無違和感。

Veo 3.1 Ingredients to Video 實際應用價值

品牌行銷應用:

  • 將品牌吉祥物放入不同場景
  • 創造產品在各種環境下的使用情境
  • 製作一致風格的系列廣告內容

內容創作應用:

  • 同人創作將角色放入新場景
  • 個人化影片製作
  • 創造跨風格混搭內容

Veo 3.1 的技術限制

這個強大的 Veo 3.1 功能有個意外怪癖:目前僅支援 Veo 3.1 Fast(快速)模型,在更高畫質的 Veo 3.1 Quality 模型上無法使用。這暗示該技術仍在開發階段,Google 正在平衡功能豐富性與輸出品質。


4. Veo 3.1 變形動畫的魔力:Frames to Video 功能實測

Veo 3.1 的「Frames to Video」(幀轉影片)功能根據起始和結束圖片自動生成中間過渡動畫。這個 Veo 3.1 功能在 Adobe Firefly 中也有類似實現,但 Veo 3.1 能同時生成音效。

Veo 3.1 令人驚豔的變形效果

在「人類變形成狼人」實驗中,Veo 3.1 展現的最令人印象深刻的時刻包括:

  • 身體已變成狼的形態,卻還保留人類雙腿
  • 人類的手逐漸長出毛髮,指甲變成利爪的漸變
  • 臉部特徵在人類和狼之間的微妙轉換

這些「半人半狼」混合形態正是 Veo 3.1 才能創造的魔幻時刻。傳統動畫中這樣的變形效果需要數週精心設計,而 Veo 3.1 能在幾分鐘內自動生成。

Veo 3.1 技術限制的挫折

Veo 3.1 的核心問題是跳切現象:動畫常在最精彩的變形過程中突然「跳切」到最終畫面,而非平滑完成整個轉變。測試顯示,約 30-40% 的 Veo 3.1 變形動畫會出現某種程度的跳切問題。

這種魔力與挫折並存的體驗,反映了當前 AI 生成技術的現狀:Veo 3.1 潛力巨大,但穩定性與一致性仍有待提升


5. Veo 3.1 vs Sora 2:完整功能對比

Veo 3.1 Sora 2 究竟誰更勝一籌?這是每個關注 AI 影片生成的人都想知道的答案。以下是詳細的功能對比表:

Veo 3.1 vs Sora 2 完整對比表

比較項目Veo 3.1Sora 2優勢方
物理模擬準確度良好,但偶有瑕疵優秀,更真實的物理表現Sora 2 ✓
真實感良好,略帶「人工感」照片級真實感Sora 2 ✓
編輯功能Add Object、Extend、豐富基本編輯,未來將推出 StoryboardVeo 3.1 ✓
多圖組合生成Ingredients to Video(最多 3 張)目前不支援Veo 3.1 ✓
幀間插值Frames to Video支援類似功能平手
內容審查相對寬鬆,允許同人創作嚴格,封鎖版權角色Veo 3.1 ✓
人物生成良好,適合卡通風格優秀,適合真人風格Sora 2 ✓
音效整合所有功能原生支援音效原生音效,Cameos 支援語音平手
影片長度8 秒基礎,可延伸至 148 秒20 秒基礎Veo 3.1 ✓
解析度720p / 1080p @ 24fps720p / 1080p @ 24fps平手
適合風格卡通、動畫、藝術風格真人、紀實、寫實風格各有優勢
API 可用性Gemini API、Vertex AI即將推出 APIVeo 3.1 ✓
定價與 Veo 3 相同(付費預覽)免費有限制,Pro 訂閱無限Sora 2 ✓

Veo 3.1 的核心優勢

根據 OpenAI 官方發布和我們的實測,Veo 3.1 在以下方面表現突出:

1. 強大的迭代編輯工具

  • Veo 3.1 的 Add Object、Frames to Video、Ingredients to Video 提供精確控制
  • 允許逐步完善作品,而非一次性生成

2. 寬鬆的內容審查

  • Veo 3.1 允許創作包含知名角色的同人內容
  • 在創意探索方面給予更大自由度

3. 適合風格化內容

  • Veo 3.1 在卡通、動畫風格表現優秀
  • 藝術風格一致性控制更好

4. 完整的音效整合

  • Veo 3.1 在多個功能中都支援原生音效生成
  • 減少後期處理工作量

Veo 3.1 vs Sora 2 選擇指南

選擇 Veo 3.1 的情況:

  • 創作卡通或動畫風格內容
  • 需要大量迭代和精細調整
  • 想要更多創作自由度
  • 需要組合多個元素創作
  • 重視編輯工具的靈活性

選擇 Sora 2 的情況:

  • 需要照片級真實感
  • 主要創作真人風格內容
  • 看重物理模擬精確性
  • 希望一次生成就獲得理想結果

一位業界評測者總結:「如果你想製作卡通和同人創作,用 Veo 3.1 可能更好。如果你想要逼真的人物或紀實風格影片,Sora 2 是當前首選。」


結論:Veo 3.1 引領 AI 影片的未來方向

總結來說,Veo 3.1 的更新意義重大,不僅是畫質提升,更在於朝著「使用者控制」和「迭代式編輯」邁出一大步

Veo 3.1 帶來的創作者角色演變

Veo 3.1 最令人印象深刻的是,創作者正從「提示詞創作者」轉變為更具掌控力的「導演」。這個轉變反映了 AI 工具正從「黑盒子」走向「透明化」,從「一次性輸出」走向「可控制過程」。

現在,Veo 3.1 正讓 AI 影片創作者也擁有傳統導演的能力:

  • 對每個鏡頭的精確控制
  • 修改調整的能力
  • 逐步完善作品的工作方式

雖然 Veo 3.1 還沒達到專業影片編輯軟體的精細度,但方向正確。

Veo 3.1 的產業影響與展望

Veo 3.1 和 Sora 2 的競爭反映了整個 AI 產業發展趨勢。我們正見證「可控性 vs. 品質」、「靈活性 vs. 真實感」的持續探索。

對專業創作者來說,Veo 3.1 這樣的工具已開始改變工作流程:

  • 行銷團隊可用 Veo 3.1 快速製作測試素材
  • 內容創作者能用 Veo 3.1 實現以前需要昂貴設備才能完成的創意
  • 教育工作者可用 Veo 3.1 創作更生動的教學內容
  • 獨立藝術家透過 Veo 3.1 獲得前所未有的創作自由

Veo 3.1 的未來發展方向

根據我們對 Veo 3.1 的測試和業界觀察,未來 Veo 3.1 及其後續版本可能會聚焦於:

  1. 更精細的控制粒度Veo 3.1 未來版本可能不僅能編輯場景,還能控制每個物體的具體動作
  2. 更長的影片長度:從 Veo 3.1 目前的幾秒鐘延伸到幾分鐘甚至更長
  3. 更好的一致性Veo 3.1 在整個影片中保持角色、風格和敘事的連貫性
  4. 更智慧的音效整合Veo 3.1 實現對白、音效和背景音樂的精確同步
  5. 移除與變更功能Veo 3.1 未來可能支援移除或變更現有物件

最後的思考:Veo 3.1 的意義

隨著我們從單純指令生成轉向場景精細導演,一個根本性問題值得深思:在 Veo 3.1 這樣的工具引領下,創作者的角色將如何演變?這種對影片的「可控性」,會不會成為未來所有 AI 影片工具的決勝關鍵?

Veo 3.1 展現的趨勢看,答案很可能是肯定的。就像 Photoshop 沒有取代攝影師,而是讓他們擁有更強大創作能力一樣,Veo 3.1 這樣的 AI 影片工具也在重新定義「導演」和「創作者」的含義。

關鍵在於,Veo 3.1 這樣的工具是否能讓創作者既保持創意控制權,又能顯著降低技術門檻和製作成本。從 Veo 3.1 展現的方向看,我們正朝這個目標穩步前進。

Veo 3.1 的未來,不僅關乎技術本身,更關乎創作者如何運用這些工具講述更好的故事,創造更有價值的內容。


Veo 3.1 相關資源與延伸閱讀

想要了解更多關於 Veo 3.1 和相關技術的資訊,請參考以下資源:

Veo 3.1 官方資源

相關文章

如果你對 AI 基礎架構 MLOps 感興趣,我們也有相關的深度文章可供參考。


常見問題 FAQ

Q: Veo 3.1 和 Veo 3 有什麼不同? A: Veo 3.1 帶來了更好的提示詞遵循、增強的圖片轉影片能力、原生音效生成,以及新的編輯功能如 Add Object 和 Frames to Video。

Q: Veo 3.1 目前可以在哪裡使用? A: Veo 3.1 可透過 Google 的 Gemini API、Vertex AI 平台、Gemini app 以及 Flow 影片編輯器使用。

Q: Veo 3.1 的定價如何? A: Veo 3.1 的定價與 Veo 3 相同,目前處於付費預覽階段,僅在成功生成影片時收費。

Q: Veo 3.1 適合什麼類型的創作? A: Veo 3.1 特別適合卡通、動畫、藝術風格的內容創作,以及需要多次迭代調整的專案。


最後更新:2025 年 10 月

本文基於 Google Veo 3.1 和 OpenAI Sora 2 截至 2025 年 10 月的公開資訊和實際測試撰寫。Veo 3.1 的技術規格和功能可能會隨版本更新而變化。