Gemini Omni 유출 해독: I/O 직전의 모든 단서

· Chris Sherman

5월 2일은 UI 문자열, 5월 11일은 첫 생성 클립, 5월 19~20일은 발표. Google 기조연설까지 6일 — Gemini Omni에 대해 알려진 것과 그렇지 않은 것.

2막 구조의 유출

아직 공식 발표되지 않은 모델치고 Gemini Omni는 이례적으로 잘 기록된 사전 단계를 거쳤다. 흔적은 2026년 5월 2일부터 시작된다. 한 X 사용자가 Gemini 비디오 생성 탭 깊숙이 숨은 UI 문자열을 발견했다: "Start with an idea or try a template. Powered by Omni." TestingCatalog가 그날 보도했다. 그 문자열은 9일간 그대로 있었고 모두가 추측했다.

그리고 2026년 5월 11일, 두 번째 신발이 떨어졌다. 공개판 Veo 3.1이 아닌 무언가가 생성한 게 분명한 클립이 적어도 하나의 Gemini Pro 계정에서 유출됐다. 두 개가 가장 주목받았다 — 해변 레스토랑에서 먹는 스파게티 장면, 칠판에서 삼각함수 증명을 풀어가는 교수 장면. 24시간 안에 9to5Google, Android Authority, Chrome Unboxed 등 십여 매체가 보도했다.

다음 큰 이벤트는 5월 19~20일 Google I/O 2026이다. 이 글을 읽을 즈음이면 약 6일 후다. Google은 Gemini와 AI 업데이트가 의제에 있다고 확인했지만 Omni라는 이름은 확인하지 않았다.

이 글은 5월 13일의 스냅샷 — 그 간격의 한가운데다. 무엇이 사실이고 무엇이 추측이며 클립이 시사하는 바와 기조연설에서 실제로 주시할 것. I/O 이후에 업데이트하겠다.

타임라인 한눈에

날짜사건출처 신뢰도
2026-05-02Gemini 비디오 탭 내 "Powered by Omni" UI 문자열 발견높음 — UI 스크린샷 유통
2026-05-02~10추측 단계. 구체적 산출물 없음. 다수 매체가 문자열을 확인검증됨
2026-05-11Gemini Pro 계정에서 클립 유출 — 특히 스파게티 장면과 칠판 교수높음 — 다수 매체가 독립적으로 동일 클립 보도
2026-05-11~12확장된 UI 문자열 등장: "Create with Gemini Omni: meet our new video model, remix your videos, edit directly in chat, try templates, and more"검증됨
2026-05-19~20Google I/O 2026 기조연설 — 공식 발표 가능성 가장 높음예정 (미발생)

두 가지가 두드러진다. 첫째, 유출은 제품 안에서 일어났다. 마케팅 정보 누설이 아니다 — Google이 정식 발표 전 일부 Gemini Pro 사용자에게 Omni를 점진 출시했고 그것이 스크린샷될 만큼 가시적이었다는 의미다. 보도자료 사전 유출보다 훨씬 신뢰도 있는 신호다. 둘째, 두 번째 UI 문자열("remix your videos, edit directly in chat, try templates")은 Google이 이것을 워크플로 제품으로 포지셔닝하고 있음을 말한다 — "edit directly in chat", "remix" 같은 표현은 소비자 제품 언어이지 벤치마크 언어가 아니다.

두 클립이 실제로 보여준 것

유출된 두 클립이 현재 가장 구체적인 정보다. 둘 다 10초 미만으로 짧고, 사용자들이 Gemini Pro 웹 인터페이스라고 묘사한 곳에서 텍스트 프롬프트로 생성됐다.

클립 1: 해변 스파게티

해변 레스토랑에서 스파게티를 먹는 손님, 일몰 조명, 지중해 환경음. 주목할 점은 시각 충실도가 아니다 — 그 수준은 Veo 3.1도 이미 도달했다. 주목할 점은 스파게티가 스파게티답게 행동한다는 것이다. 포크에 감기고, 무게를 가지고 떨어지며, 포크에서 입까지의 동작이 연속성을 지킨다. 물리 부하가 높은 음식 장면은 비디오 모델의 역사적 약점이었다 — 도구와 음식이 부자연스럽게 변형되고 가닥이 끊기며 중간에 중력이 작동을 멈춘다. 유출 클립은 이를 깔끔하게 다룬다. 기반 모델이 공개판 Veo 3.1보다 눈에 띄게 더 나은 물리 사전을 가졌음을 시사한다.

클립 2: 칠판 교수

교수가 칠판에서 삼각함수 증명을 풀어간다. 카메라는 그가 쓰는 동안 칠판에 고정된다. 여기서 흥미로운 건 텍스트와 수식 렌더링이다. AI 비디오 모델은 일관된 텍스트에서 악명 높게 약하다 — 글자가 프레임 사이에서 흘러가고, 수식이 중간에 횡설수설이 되며, 수학처럼 보이는 것은 보통 무너진다. 유출된 칠판 클립은 프레임 사이에 일관된 수학 표기를 보여주고, 교수의 손도 획을 올바르게 따라간다. 사소한 개선이 아니라 2년간 깨져 있던 카테고리의 해결이다.

두 클립이 함께 시사하는 것

유출 클립이 대표성을 가진다면 — 이 "~라면"은 진지하게 받아들여야 한다. Google은 당연히 최고의 출력을 보이는 클립을 흘릴 것이다 — Omni는 AI 비디오에서 가장 어려운 두 약점, 즉 복잡 물리와 화면 내 텍스트 렌더링을 겨냥하고 있다. 이는 Sora 2의 철수와 HappyHorse 1.0 출시가 공통적으로 가리킨 다음 프런티어와 같다. (정전 서사는 2026 중반 결산 참조.)

데모 콘텐츠의 선택이 중요하다. 스파게티 장면과 수학 강의는 미학 과시가 아니라 능력 과시이며, 경쟁 모델이 확실하게 해내지 못하는 바로 그 지점을 겨냥한다. Google이 Omni를 무엇에 대치시키는지 알려준다.

Omni의 정체에 관한 세 가지 경쟁 가설

I/O 전 추측의 핵심이 여기 있다. Omni가 무엇을 의미하는지에 대한 세 가지 그럴듯한 해석이 있고, 시장에 대한 함의는 각기 다르다.

가설 1: Veo 3.1의 소비자용 리브랜드

가장 단순한 해석: Omni는 소비자판 Gemini 앱 안의 기존 Veo 파이프라인의 새로운 공개 이름일 뿐이다. 기반 생성 스택은 변하지 않는다. Google은 "Veo" 브랜드를 소비자 표면에서 거두고, Vertex AI 엔터프라이즈 API용으로 남기며, Gemini 챗 경험에 통일된 제품명을 부여한다.

지지 근거: Google에는 개명의 역사가 있다. Bard → Gemini가 가장 눈에 띈 예다. "Veo 3.1"이라는 소비자 브랜드는 늘 어색했다 — 버전 번호는 비기술 사용자에게 팔리지 않는다. UI 문자열("remix your videos, edit directly in chat")은 모델 신기성이 아니라 워크플로를 강조한다.

반대 근거: 유출 클립은 공개판 Veo 3.1을 시각적으로 능가하는 능력을 보인다. 특히 물리와 텍스트 렌더링. 순수한 리브랜드라면 시각적으로 다른 출력이 나오지 않는다. Google이 Omni 브랜드 아래 조용히 Veo 3.2를 출시 중이 아닌 한, 이 가설은 클립을 설명하지 못한다.

가설 2: 별도의 Gemini 자체 학습 비디오 모델

중간 해석: Omni는 Gemini 라인 내에서 학습된 새 비디오 모델로, DeepMind의 Veo 파이프라인과 분리돼 있고, Google 로드맵에서 Veo를 대체하는 대신 병행한다. 소비자 Gemini는 Omni를, Vertex AI 엔터프라이즈 고객은 계속 Veo를 사용한다. 둘은 병렬 진화한다.

지지 근거: Google은 역사적으로 병렬 모델 라인을 유지해왔다(소비자용 Gemini, 엔터프라이즈용 별도 연구 라인). 유출 클립의 능력 도약은 Veo 3.1과 다른 데이터 혼합과 아키텍처로 학습된 모델과 일치한다.

반대 근거: 최상위 비디오 모델 라인을 두 개 운영하는 건 비용이 많이 든다. 사후 분석에서 다룬 Sora 2 철수는 OpenAI조차 소비자 비디오 모델 한 개도 규모로 지탱하지 못함을 보여줬다. Google이 두 개를 운영하는 건 이상한 전략적 선택이다.

가설 3: 통합 옴니 모델 (이미지+비디오+오디오를 단일 전방 패스에서)

가장 야심찬 해석: Omni는 Gemini에서 학습된 새 모델군의 첫 번째 구성원이며, 단일 전방 패스에서 이미지 생성, 비디오 생성, 동기화 오디오를 처리한다. 이는 HappyHorse 1.0이 4월 15B 파라미터 통합 오디오-비디오 모델로 Arena #1을 차지했을 때 개척한 아키텍처다. 이 가설에서 Omni는 현재의 Veo 파이프라인(비디오)과 Nano Banana Pro 스택(이미지) 모두를 단일 멀티모달 생성기로 대체한다.

지지 근거: 제품명 자체 "Omni"가 강하게 멀티모달 범위를 함의한다. UI 프레이밍("our new video model, remix your videos, edit directly in chat")은 여러 모달리티를 아우르는 단일 제품 표면을 시사한다. 통합 아키텍처 출시를 향한 HappyHorse의 경쟁 압박은 급박하다 — Google은 4월 이후 Arena 정상 자리를 잃고 있다. (아키텍처 세부는 HappyHorse 1.0 리뷰 참조.)

반대 근거: 통합 옴니 모델은 기술적으로 어렵고, Google은 ByteDance나 Alibaba보다 소비자에게 새 아키텍처를 출시하는 데 보수적이었다. 공개 기조연설에서 두 생산 파이프라인을 동시에 교체하는 건 고위험 수다.

판돈은 어디에

업계 관찰자들은 세 가설에 대략 30/30/40으로 나뉜다. UI 프레이밍과 능력 도약을 근거로 한 가장 가능성 높은 해석은 가설 2와 3의 혼합 — 적어도 비디오와 오디오를 통합 처리하는 새 Gemini 자체 학습 모델, 안정성이 필요한 엔터프라이즈 고객용으로 Veo는 Vertex AI에 살아남는다. 6일 후면 알게 된다.

왜 Google을 넘어서 중요한가

Omni가 흥미로운 건 Google이 새 비디오 모델을 출시해서가 아니다. 새 비디오 모델은 이제 매달 나온다. Omni가 흥미로운 건 가설 3이 맞을 때 무엇을 의미하는가 때문이다.

AI 비디오 업계는 2026년 첫 4개월을 통합 옴니 모델 명제가 펼쳐지는 걸 지켜봤다. Sora 2는 분리 파이프라인 아키텍처로 84일 만에 붕괴. HappyHorse 1.0은 15B 통합 아키텍처로 48시간 만에 Arena #1. Seedance 2.0은 이중 분기 트랜스포머로 오디오와 비디오를 함께 출력. 기술 무게중심은 한 분기 내내 통합 모델로 기울어왔고, 응답하지 않은 유일한 서구 주요 연구소가 Google이었다.

Omni가 진정한 통합 모델 — 가설 3 — 이라면, Google이 중국 선두주자들이 확립한 아키텍처 방향에 합류한 것이다. 세 가지 하류 효과가 있다:

  1. Veo 브랜드 통합 또는 퇴역. 분리 파이프라인 Veo와 통합 Omni를 12개월 이상 병행 운영하는 건 말이 안 된다. Vertex AI의 엔터프라이즈 고객은 마이그레이션 경로를 기대할 것이다.
  2. 서구/중국 아키텍처 격차가 좁혀진다. "중국 모델이 통합 아키텍처를 선도했기에 구조적 우위" 프레임은 Google이 자체 모델을 출시하는 순간 약해진다.
  3. 모델 계층 차별화가 계속 압축된다. 톱 6 모델 중 4개가 통합 오디오-비디오 아키텍처를 사용하면, 모델 계층은 더 상품화되고 agent 계층이 유일한 의미 있는 차별화 지점이 된다. 이는 2026 중반 결산의 핵심 명제이며, Omni는 이를 연장한다.

Omni가 단지 리브랜드라면(가설 1), 위 대부분은 적용되지 않는다. 하지만 유출 클립은 가설 1을 셋 중 가장 가능성 낮은 것으로 만든다.

I/O에서 주시할 6항목 체크리스트

5월 19일 기조연설이 시작되면 다음 신호들이 어느 가설이 맞았는지 말해준다. 단독으로 결정적인 건 없지만 함께 보면 명확한 그림이 그려진다.

신호 1: Google이 기조연설 무대에서 여전히 "Veo"를 말하는가?

소비자 대상 Gemini 세그먼트에서 Veo가 눈에 띄게 부재하면 Veo가 소비자 브랜드로 퇴역하는 증거다. Veo가 Omni와 나란히 언급되면 둘은 병존(가설 2). 둘 다 언급되지만 Veo가 엔터프라이즈 전용으로 위치하면 마이그레이션이 시작되는 것이다.

신호 2: Omni가 비디오와 같은 호출에서 오디오를 생성하는가?

동기화된 비디오+오디오를 반환하는 단일 API 호출은 통합 옴니 모델(가설 3)의 기술적 서명이다. 비디오 먼저 그다음 오디오 합성을 위한 두 번째 호출은 이전 세대 아키텍처 패턴이다. 기조연설 데모에서 명확히 드러날 것이다.

신호 3: Omni가 이미지 생성도 다루는가?

Omni가 새 비디오 모델로만 위치하면 범위가 좁다. Omni가 이미지 생성도 흡수해 Gemini 챗 표면 내 Nano Banana Pro를 대체하면, 더 넓은 통합 모달리티 명제의 증거다. 기조연설의 이미지 생성 데모가 "Omni"에 귀속되는지 Nano Banana / Imagen로 남는지 주시하라.

신호 4: 첫날 API가 있는가?

Veo 3.1은 기조연설 첫날 Vertex AI에 출시됐다. Omni가 5월 19~20일에 공개 API와 가격으로 함께 출시되면 즉시 프로덕션 용도로 위치한 것이다. 소비자 전용으로 나오고 API는 "올해 후반"이라면 Google은 Sora 2의 리테일 우선 경로를 따르는 것 — 규모에서 경제적으로 작동하지 않음을 이미 봤다.

신호 5: 가격 구조는?

현 공개 톱티어 API 가격 벤치마크는 대략 $0.05/초(HappyHorse 1.0)에서 $0.50/초(Veo 3.1) 사이다. Omni API 가격이 HappyHorse에 가까우면 Google은 비용으로 경쟁, Veo 3.1에 가까우면 품질로 경쟁. 선택은 Google이 어느 시장을 우선시하는지 알려준다.

신호 6: Project Astra는 어떻게 맞물리는가?

Google은 2024년 이후 모든 I/O에서 Project Astra — 실시간 멀티모달 어시스턴트 — 를 시연해왔다. 5월 19~20일에 Astra가 갑자기 제품이 되고 Omni를 기반으로 한다면, 그것이 더 넓은 "omni" 명제다 — 단순한 비디오 모델이 아니라 Gemini 경험 전반을 가로지르는 실시간 멀티모달 AI 표면.

워크플로에 무엇을 의미하는가

기조연설을 기다리는 동안 실무적으로 정리할 세 가지.

Gemini를 직접 쓰는 크리에이터라면

지금은 아무것도 바꾸지 마라. 소비자 Gemini 앱의 Omni가 다음 주에 출시된다면 기존 비디오 생성 경험을 단순히 대체하거나 업그레이드할 뿐이다. "remix your videos, edit directly in chat" 표현은 이미 익숙한 챗 주도 워크플로를 시사한다. 그 아래 더 똑똑한 모델이 있을 뿐. 발표를 기다리고 새 능력을 시도하고 실제 변화에 맞춰 프롬프트를 조정하라.

Vertex AI 위에서 개발한다면

신호 1(Veo 브랜드)과 신호 4(API 가용성)를 주의 깊게 살펴라. Veo가 소비자 브랜드로 퇴역하면서 엔터프라이즈용으로 Vertex AI에 남는다면 기존 통합은 안전하다. Omni가 Vertex AI에서 Veo를 완전히 대체하면 API 마이그레이션이 기다린다. 어느 쪽이든 통합을 agent 또는 오케스트레이션 계층 너머로 구축하면 모델 교체가 코드 변경이 아닌 설정 변경이 된다.

멀티 모델 agent 스택을 운영한다면

이것이 최근 글들에서 옹호해온 상황이다. (여섯 가지 전환장형 병목 참조.) 멀티 모델 agent는 Omni를 라우팅 테이블의 또 다른 생성기로 다룬다 — Veo, Seedance, HappyHorse, Kling, Luma, Runway와 나란히. Agent 계층이 생산적 질문이 사는 곳이다: 이 60초 비디오의 어느 컷을 어느 모델로 라우팅할지. Omni의 발표는 라우팅 테이블에 옵션 하나를 추가할 뿐 운영 중인 아키텍처를 바꾸지 않는다.

그래서 Genra의 스택을 모델 불가지론적으로 유지해온 것이다 — 모델 계층은 계속 움직이고 agent 계층이 복리로 쌓인다.

I/O 6일 전, 결론

아는 것: Gemini 비디오 탭 안에 Omni라 불리는 실제 모델이 있고, 출력은 물리와 텍스트에서 공개판 Veo 3.1을 시각적으로 능가하며, Google은 그것을 챗 기반 워크플로 제품으로 프레이밍한다. 모르는 것: 그것이 리브랜드인지, 병렬 신모델인지, 통합 옴니 모달리티 시스템인지.

가장 유용한 단일 예측은 세 번째다. 가설 3이 맞으면, 5월 19일에 서구/중국 아키텍처 격차가 좁혀지고 업계는 모든 주요 연구소가 통합 오디오-비디오 아키텍처를 운영하는 다극 경쟁으로 돌아간다. 가설 3이 틀리면 Google은 HappyHorse가 설정한 아키텍처 최전선 뒤에 머무르고 — 4월 HappyHorse 출시 이후의 경쟁 그림은 그대로다.

어느 쪽이든 실무 결론은 같다: 모델 계층은 계속 움직이고 agent 계층이 구축해야 할 곳이다. Omni는 이를 바꾸지 않는다. 강화하거나(라우팅 테이블에 또 다른 상품화 모델 추가) 바늘을 움직이지 못한다(리브랜드라면). 차별화를 이미 agent 인프라로 옮긴 팀은 19일 Google이 발표하는 무엇이든 설정 업데이트로 흡수한다. 단일 영웅 모델에 계속 베팅하는 팀은 Q2 잔여를 재정비에 쓴다.

기조연설 후 실제로 발표된 내용으로 이 글을 업데이트하겠다.

FAQ

Gemini Omni가 무엇인가?

Gemini Omni는 Google Gemini 인터페이스 내 두 번의 유출을 통해 부상한 미공개 AI 비디오 생성 모델이다 — 2026년 5월 2일 UI 문자열과 5월 11일 Gemini Pro 계정에서 유출된 생성 비디오 클립. Google은 5월 13일 기준 Omni를 공식 확인하지 않았다. 가장 가능성 높은 발표 창은 5월 19~20일 Google I/O 2026.

Gemini Omni가 Veo를 대체하는가?

미확인. 세 가설이 경합 중이다 — Omni가 Veo 3.1의 소비자 리브랜드, Veo와 공존하는 별개의 Gemini 자체 학습 신모델, 또는 Veo와 이미지 스택을 동시 대체하는 통합 옴니 모달리티 모델. 유출 클립은 현 공개판 Veo 3.1을 넘는 능력을 시사해 순수 리브랜드 가설이 가장 낮은 가능성이 된다.

유출 클립이 보여준 건?

가장 주목받은 두 클립: 해변 레스토랑의 스파게티(물리 부하 높은 음식 동작 처리), 칠판에서 삼각함수 증명을 진행하는 교수(프레임 사이 일관된 수학 표기 렌더링). 둘 다 비디오 모델의 업계 공인 약점 영역.

Omni가 실제 무엇인지 언제 알게 되는가?

5월 19~20일 Google I/O 2026. 여섯 신호를 주시하라 — Veo가 여전히 언급되는지, 오디오가 비디오와 같은 호출에서 생성되는지, 이미지 생성이 포함되는지, 첫날 API가 출시되는지, 가격이 어떤지, Project Astra가 어떻게 맞물리는지.

크리에이터로서 발표 전 무엇을 해야 하나?

지금은 아무것도 바꾸지 마라. 소비자 Gemini를 쓴다면 출시를 기다려 새 능력을 시도하라. Vertex AI에 있다면 API 마이그레이션 경로에 주목하라. 멀티 모델 agent 스택을 운영한다면 Omni를 라우팅 테이블의 또 다른 생성기로 다뤄라.

Omni와 HappyHorse 1.0 비교는?

HappyHorse 1.0은 2026년 4월 7일 출시 후 48시간 만에 Artificial Analysis Video Arena #1을 차지, 15B 파라미터 통합 오디오-비디오 아키텍처를 채택. Omni도 통합 옴니 모델이라면 그 아키텍처 방향에 대한 Google의 첫 응답이다.


저자 소개
Chris Sherman은 AI 비디오 기술과 크리에이티브 제작 워크플로를 취재한다. 5월 19~20일 Google I/O 2026 기조연설 실시간 커버리지는 @GenraAI에서.