2026年5月19日、Google I/Oで大きな発表があった。Gemini Omni Flash が正式に登場し、AI動画生成は「考えながら作る」新しい時代に入った。同じ週、オープンソース陣営の LTX-2 もComfyUIと組み合わせて注目を集め、オンプレミスでの動画生成が初めてビジネスで使えるレベルに達した。

この2つの技術が同時に進化したことで、企業やクリエイターは大きな選択を迫られている。

クラウドサービスに任せるか、自社環境を構築するか?

これは「どちらが優れているか」という話ではなく、自社のコスト・プライバシー要件・ワークフローにどちらが合うかという判断の問題である。この記事で一緒に整理していこう。

一、Gemini Omni Flashとは? Veoの新バージョンではない

最初、多くの人がOmni FlashをVeoシリーズのアップデートだと思った。しかし、それは誤解である。

Googleの公式発表によると、Omni Flashは以下の4つを組み合わせたシステムである。

  • Gemini(推論エンジン)
  • Veo(映像レンダリング)
  • Genie(世界シミュレーション)
  • Nano Banana(編集レイヤー)

つまりOmni Flashは、「動画を生成するモデル」ではなく、「世界を理解したうえで動画を生成するモデル」 である。 

3つの大きな進化

1. テキスト・画像・音声・動画、何でも入力できる(Any-to-Video)

どんな形式の入力でも受け付け、Geminiが持つ知識をもとに動画を生成する。見た目がそれらしいだけでなく、歴史・科学・物理・文化の論理にも沿った内容になるのが特徴である。

たとえば「タンパク質が折り畳まれる様子」を科学アニメーションにすると、生化学的に正確なアミノ酸の動きまで再現できる。これは従来のAI動画では不可能だった。

2. 会話しながら編集できる(Conversational Multi-turn Editing)

これがOmni Flashで最も大きなワークフロー革新である。

これまでのAI動画生成は「プロンプトを書く→生成→ダメなら最初からやり直す」の繰り返しだった。Omni Flashでは、

  • 「光を夕暮れに変えて」
  • 「ジャケットを紺色にして」
  • 「カメラを左に動かして」

といった指示を会話形式で伝えるだけで、キャラクターの見た目やシーンの流れを保ちながら編集できる。

Sora 2がもたらした物理リアリティの衝撃を思い出してほしい。Omni Flashはその路線でさらに大きく前進している。

3. 物理の動きがリアル (World Model)

重力・流体・運動エネルギーの動きが、モデルの仕組みそのものに組み込まれている。「水が水らしく見えない」「髪が重力を無視して浮く」といった、従来のAI動画でよくあった不自然さが根本的に解決された。

この物理シミュレーション機能は、DeepMindのGenieエンジンが元になっている。

料金と入手方法: Gemini App、Google FlowでAI Plus(月額7.99ドル)、Pro(月額19.99ドル)、Ultra(月額99.99ドル)加入者が利用可能。YouTube ShortsとYouTube Create Appでは無料で使える。APIは数週間以内に公開予定。

二、LTX-2:オープンソース動画生成の「速度チャンピオン」

クラウドサービスが進化する一方で、オープンソース陣営も大きく前進している。

LTX-2Lightricksが開発した19Bパラメータの動画生成モデルで、ComfyUIにネイティブ対応している。2026年のオープンソース競争で注目すべき点は、品質・速度・必要なハードウェアのすべてをビジネス利用できるレベルに引き下げたことである。

LTX-2の主な強み

  • 映像・音声・台詞・環境音を同時に生成できる 
  • NVFP4/NVFP8量子化NVIDIAとの深い連携による最適化で、RTX 5090では同クラスモデルの3倍の速度、VRAMの使用量を60%削減 
  • 16GB VRAM のGPUで動作:24GB以上のハイエンドGPUは不要 
  • ネイティブで4K出力が可能:後処理のアップスケール不要
  • ComfyUIのノードワークフローにすぐ組み込める 

他のオープンソース動画モデルと比べると、LTX-2は「速くて使いやすい」ポジションに位置する。より高い品質を求めるならWan 2.2、モーション表現ならHunyuanVideo 1.5という選択肢もあるが、一般的なコンシューマー向けGPUでビジネスレベルの動画を出せるのはLTX-2だけである。 

三、クラウド vs オンプレミス:8つの視点で比較する

判断のポイントは 「どちらが優れているか」ではなく、「どちらが自分たに合っているか」である。

比較項目 クラウド(Omni Flash / Veo など) オンプレオープンソース(LTX-2 / Wan など)
品質の上限高い、物理的にもリアル 近いが、まだ差がある
編集のしやすさ会話形式で直感的 ✅再生成・ワークフロー調整が必要 
1本あたりのコスト 0.05〜0.60ドル程度 電気代 + GPUの原価償却
データのプライバシークラウド上処理社内で完結 ✅
大量生成のコスト効率量が増えると割高になる 月500〜2,000本超で有利 ✅
カスタマイズ性APIパラメータの範囲内 LoRA・ControlNet・独自ノードも可能 ✅
導入のしやすさ サブスク即利用 ✅GPU + ComfyUI 知識が必要
コンテンツの管理プラットフォームポリシー制限完全自主 ✅

特に重要なのが大量生成のコスト効率である。月間500〜2,000本以上の動画を生成するなら、オンプレミスの方がコスト的に大きく有利になる。EC用の素材、広告のバリエーション、教育コンテンツの量産など、意外と早くこの水準に達する。 

四、どちらか一方を選ぶのではなく「パイプライン」を設計する

2026年の賢い使い方は、「一つを選ぶ」ではなく「複数を組み合わせる」ことである。成熟した動画生成パイプラインの例を見てみよう。 

  1. アイデア検証:オンプレのLTX-2で20パターンのバリエーションを10分以内に生成する。追加コストはほぼゼロ。
  2. クライアント提案:方向性が決まったら、クラウドのOmni Flashで会話型編集を使ってメインカットを仕上げる。
  3. 素材の大量生成 :オンプレのWan 2.2で高品質な素材を夜間に一括処理する。 
  4. 最終仕上げ:Omni Flashの会話型編集で細かい修正を加えて完成 

各モデルに得意なことを任せる」という考え方がポイントである。クラウドは品質重視のキービジュアルを担当し、オンプレミスは大量生成・カスタマイズ・プライバシーが必要な素材を担当する。 

自社でオンプレミスのAI環境を構築する企業にとって、GPUリソースの管理は重要なスキルとなる。1枚のGPUを分割して使う方法から、複数枚を束ねる集約、さらに複数サーバーをまたいだスケジューリングまで、限られたハードウェアでGPU使用率を最大化する方法が、オンプレ投資の効果を直接左右する。

五、コンテンツの信頼性とルール対応:SynthIDを見逃すな

Omni Flashが生成する動画には、SynthIDという見えない形の電子透かしが自動で埋め込まれる。これはAI生成コンテンツであることを証明する業界標準(C2PA)とも連携が進んでいる。Google ChromeとGoogle検索も近くAI生成コンテンツを自動で識別できるようになる見込みである。OpenAI・ElevenLabs・NVIDIAもこのアライアンスに参加している。 

一方、オープンソースモデルには強制的な電子透かしがない。プライバシーが重要な業界では有利だが、ブランドとしての信頼を積み上げたいコンテンツ提供者には課題にもなり得る。

「AIが作ったコンテンツかどうかを識別する機能」は、12ヶ月以内に主要プラットフォームの標準機能になる。ブランド担当者は今から、コンテンツの透明性をどう示すかを考えておくべきである。

まとめ:クラウドで品質の頂点を、オンプレで規模の経済を

Omni Flash は、AI動画が「推論時代」に入ったことを示している。モデルが物理・文化・ストーリーの論理を理解しながらコンテンツを作れるようになった。

LTX-2 は、AI動画が「普及時代」に入ったことを示している。ビジネスレベルの動画生成が、一般的なGPUで動くようになった。

この2つは競合ではなく、補完し合う関係である。

企業が問うべきは「AI動画を使うべきか?」ではなく、「クラウドとオンプレをどう組み合わせるか?」だ。この判断には、コスト構造・プライバシー要件・法的対応・技術チームの能力が複合的に絡んでくる。

AI-Stackの完全アーキテクチャがどのように両環境の統合管理を実現するかは、INFINITIXが長年企業向け導入の中で向き合ってきた課題そのものである。

2026年は「ツールを選ぶ」時代ではない。「ワークフローを設計する」時代である。クラウドとオンプレを使いこなす企業が、このAI動画革命の本当の勝者となるだろう。