2026년 5월 19일, Google I/O는 충격탄을 떨어뜨렸다 — Gemini Omni Flash가 공식 데뷔하며 AI 영상 생성이 “추론하는” 월드 모델 시대에 진입했음을 선언했다. 같은 주, 오픈소스 진영의 LTX-2 역시 ComfyUI 생태계에서 추진력을 얻으며 온프레미스 영상 생성이 처음으로 상용화 가능 수준을 넘어섰다.
두 기술 노선이 동시에 가속화되면서, 기업과 크리에이티브 업계는 중요한 선택의 기로에 섰다: 클라우드 플래그십에 전면 베팅할 것인가, 아니면 온프레미스 역량을 구축할 것인가?
이것은 “어느 쪽이 더 우수한가”의 문제가 아니다. “어느 길이 당신의 비용 구조, 프라이버시 요구, 워크플로에 맞는가”의 의사결정 문제다. 본 글에서 한 번에 분석한다.
1. Gemini Omni Flash란 무엇인가? 단순한 또 다른 Veo가 아니다
많은 사람이 처음에는 Omni Flash를 Veo 시리즈의 업그레이드 버전으로 오해했다 — 하지만 이는 잘못된 이해다.
Google 공식 발표에 따르면, Omni Flash는 Gemini(추론) + Veo(렌더링) + Genie(월드 시뮬레이션) + Nano Banana(편집 레이어) 네 시스템의 융합 아키텍처다. 다시 말해, 이것은 “추론할 수 있는 영상 모델“이지, “영상을 생성하는 모델”이 아니다.
세 가지 돌파구:
1. Any-to-Video 멀티모달 통합 입력
텍스트, 이미지, 오디오, 영상 — 어떤 조합이든 입력으로 받아, Gemini의 월드 지식이 반영된 영상 콘텐츠를 출력한다. 이는 단순히 “시각적으로 그럴듯한” 화면이 아니라, 역사, 과학, 생물, 물리, 문화의 논리와 일관된 콘텐츠를 생성한다는 뜻이다.
예를 들어 “단백질 폴딩” 과학 애니메이션을 생성하라고 하면, Omni Flash는 생화학적으로 정확한 아미노산 사슬과 알파 나선 구조를 생성한다 — 과거 AI 영상 모델로는 불가능했던 일이다.
2. 대화형 멀티턴 편집 (Conversational Multi-turn Editing)
이것이 Omni Flash 최대의 워크플로 혁신이다.
과거 AI 영상은 “prompt-and-pray” 워크플로였다: 긴 프롬프트를 작성하고, 생성 버튼을 누르고, 결과가 쓸만하길 기도하고, 안 되면 처음부터 다시 시작. Omni Flash는 이를 대화로 바꿨다: “조명을 황혼으로 바꿔줘”, “재킷을 짙은 파란색으로”, “카메라를 왼쪽으로 패닝” — 매 편집마다 캐릭터 일관성, 장면 구조, 물리 연속성이 보존된다.
이는 “Nano Banana for video”의 정신이다 — Google의 Nano Banana 이미지 편집 모델에 익숙한 사람이라면 즉시 그 DNA를 알아볼 것이다. Sora 2가 가져온 물리 리얼리티의 충격을 떠올려 보라 — Omni Flash는 그 길에서 한 단계 더 큰 도약을 했다.
3. 실제 물리 시뮬레이션 (World Model)
중력, 운동 에너지, 유체 역학이 모델 아키텍처에 직접 작성되어 있다 — 후처리 필터가 아니다. 구슬이 중력을 거슬러 비탈을 오르지 않고, 머리카락은 무게감을 가지며, 물은 실제로 물처럼 행동한다 — 과거 AI 영상의 치명적인 결함이 근본적으로 해결되었다.
물리 시뮬레이션 레이어는 DeepMind의 Genie 월드 엔진에서 왔다. 원래 게임 월드 상호작용을 시뮬레이션하기 위해 만들어진 것이, 이제 영상 생성에 이식되었다.
이용 방법: Gemini App, Google Flow에서 AI Plus(월 $7.99), Pro($19.99), Ultra($99.99) 가입자 대상 개방; YouTube Shorts와 YouTube Create App에서는 무료 개방. API는 향후 몇 주 내 출시 예정.
2. LTX-2: 온프레미스 오픈소스 진영의 속도왕
클라우드 플래그십과 병행해 발전 중인 것이 ComfyUI 생태계의 오픈소스 영상 모델이다. LTX-2는 Lightricks가 출시하고 ComfyUI에 네이티브 통합된 19B 파라미터 디퓨전 트랜스포머로, 2026년 오픈소스 경쟁에서 핵심적인 일을 해냈다: 품질, 속도, 하드웨어 요구사항을 동시에 상용화 가능 수준으로 끌어내렸다는 것이다.
LTX-2의 핵심 강점:
- 영상 + 오디오 + 대화 + 배경음을 단일 패스로 동기 생성 — 원래 클라우드 모델만의 특기였던 기능
- NVFP4/NVFP8 양자화: NVIDIA와 깊은 협업을 통한 최적화로, RTX 5090에서 동급 모델 대비 3배 빠르고 VRAM 사용량 60% 절감
- 16GB VRAM 카드로 구동 가능: 24GB급 플래그십 GPU 필요 없음
- 네이티브 4K 출력: 후처리 업스케일 불필요
- ComfyUI 네이티브 통합: 즉시 사용 가능한 노드 워크플로
다른 오픈소스 영상 모델과 비교하면, LTX-2의 포지셔닝은 “속도와 보급의 왕”이다. 더 높은 품질을 원하면 Wan 2.2, 강력한 모션 시뮬레이션이 필요하면 HunyuanVideo 1.5를 선택할 수 있지만, LTX-2는 중급 컨슈머 하드웨어에서 상용급 출력을 낼 수 있는 유일한 선택지다.
3. 클라우드 vs 온프레미스: 8개 축으로 진짜 차이를 보다
의사결정은 “어느 쪽이 더 우수한가”가 아니라, “어느 쪽이 당신에게 맞는가”이다.
| 축 | 클라우드 플래그십 (Omni Flash / Veo / Seedance) | 온프레 오픈소스 (LTX-2 / Wan / Hunyuan) |
|---|---|---|
| 품질 상한 | 플래그십급, 물리 사실주의 | 근접하지만 여전히 격차 |
| 편집 능력 | 대화형 멀티턴 ✅ | 워크플로 재실행 필요 |
| 단일 비용 | $0.05–$0.60/편 | 전기료 + GPU 감가상각 |
| 데이터 프라이버시 | 클라우드 처리 | 사내에서 처리 ✅ |
| 양산 경제성 | 대량 시 비싸짐 | 500–2000편 이상에서 손익분기 ✅ |
| 커스터마이징 | API 파라미터 제한 | LoRA, ControlNet, 커스텀 노드 ✅ |
| 도입 장벽 | 구독 즉시 사용 ✅ | GPU + ComfyUI 지식 필요 |
| 콘텐츠 통제 | 플랫폼 정책 제한 | 완전 자율 ✅ |
가장 결정적인 전환점은 양산 경제성에 있다: 월간 500~2000편 이상의 영상을 생성해야 할 때, 온프레미스 배포의 단위 비용이 클라우드 구독을 압도한다. 이커머스 소재 생성, 광고 변형 테스트, 교육 콘텐츠 양산 등의 시나리오에서 이 임계점은 생각보다 빠르게 도래한다.
4. 하나를 고르지 말고, 파이프라인을 설계하라
2026년의 진정한 승자는 “하나의 도구를 선택”하는 것이 아니라, “여러 도구를 조합”하는 자다. 성숙한 영상 생성 파이프라인은 이렇게 생겼다:
- 컨셉 테스트 단계: 온프레 LTX-2로 20개 변형을 10분 안에 생성, 한계 비용 제로
- 클라이언트 제안: 방향 확정 후, 클라우드 Omni Flash로 히어로 샷을 대화형 편집으로 다듬기
- 양산 소재: 온프레 Wan 2.2로 고품질 롱테일 소재를 야간 배치 처리
- 최종 다듬기: Omni Flash 대화형 편집으로 마지막 미세 조정
이 워크플로의 핵심 정신: 각 모델이 가장 잘하는 일을 시켜라. 클라우드는 고품질·고유연성의 핵심 장면을 담당하고, 온프레미스는 대량·커스터마이징·프라이버시 민감 소재 생성을 담당한다.
온프레미스 AI 역량을 구축하는 기업에게, 이는 동시에 GPU 자원 관리가 핵심 역량이 된다는 뜻이다. 단일 카드 분할, 다중 카드 통합, 크로스 노드 스케줄링까지 — 제한된 하드웨어에서 GPU 활용률을 어떻게 극대화할 것인가가 온프레 영상 생성의 ROI를 직접적으로 결정한다.
5. 콘텐츠 신뢰와 컴플라이언스: SynthID를 간과하지 말 것
Omni Flash가 생성하는 모든 콘텐츠에는 SynthID 비가시 워터마크가 자동으로 임베드되며, C2PA 콘텐츠 검증 표준과의 통합도 진행 중이다. Google Chrome과 Search도 곧 AI 생성 콘텐츠 자동 탐지를 지원한다. OpenAI, ElevenLabs, NVIDIA가 모두 SynthID 얼라이언스에 합류했다.
반면, 온프레 오픈소스 모델에는 강제 워터마크가 없다 — 프라이버시 민감 산업에는 강점이지만, 브랜드 신뢰를 구축해야 하는 콘텐츠 제공자에게는 도전 과제이기도 하다. “AI 콘텐츠 식별”은 12개월 내에 모든 주요 플랫폼의 기본 기능이 될 것이다. 브랜드 전략 담당자는 지금부터 콘텐츠 투명성 전략을 고민해야 한다.
결론 | 클라우드는 극한을, 온프레는 규모를
Omni Flash는 AI 영상이 “추론 시대“에 진입했음을 의미한다 — 모델이 물리, 문화, 내러티브 논리를 이해하기 시작했다. LTX-2는 AI 영상이 “대중화 시대“에 진입했음을 의미한다 — 상용급 출력이 마침내 중급 하드웨어에서 동작하게 되었다.
두 노선은 경쟁 관계가 아니라, 상호 보완 관계다.
기업 입장에서, 질문은 더 이상 “AI 영상을 써야 하는가”가 아니라 “클라우드와 온프레미스 역량을 어떻게 조합 배치할 것인가“이다. 이 의사결정은 비용 구조, 프라이버시 요구, 컴플라이언스 전략, 기술팀 역량을 동시에 관통한다 — 그리고 기업 AI 도입에서 클라우드와 온프레미스 중 어느 쪽을 선택할 것인가는 바로 INFINITIX가 기업 현장에서 오랫동안 관찰해 온 전형적인 과제다.
2026년은 더 이상 도구를 고르는 시대가 아니다. 워크플로를 설계하는 시대다. 클라우드와 온프레 양쪽을 모두 다룰 수 있는 자가, 이 AI 영상 혁명의 진정한 승자가 될 것이다.