I/O 2026 전야: AI 비디오의 진짜 질문 5가지 (새 모델 5개가 아니라)

Google I/O 2026이 24시간도 채 남지 않았다. 인터넷은 온통 Veo 4 예측 글이다. 모두 같은 질문을 한다: 새 모델의 스펙은 무엇인가? 그건 잘못된 질문이다. 지금 AI 비디오를 실제로 형성하고 있는 다섯 가지 질문은 내일 어떤 모델이 이기느냐와 거의 상관이 없다.

2026년 5월 18일 저녁이다. 내일 아침, Sundar Pichai가 무대에 올라 차세대 Veo를 발표한다. 모든 AI 비디오 크리에이터와 마케터, 애널리스트가 같은 Twitter 타임라인을 새로고침하며 유출 스펙을 기다리고 있다.

직관에 반하는 한 가지 견해: 내일의 발표는 아마 별로 바꾸지 못한다. 인상적이지 않아서가 아니라 — 분명 인상적일 것이다. 다만 AI 비디오에서 정말로 풀리지 않은 문제들은 이미 "어떤 모델이 가장 좋은 출력을 내느냐"를 넘어섰기 때문이다. 그 문제들은 한 층 위, 클립과 완성 비디오 사이의 간극에 산다. 더 나은 Veo는 그 간극을 메우지 않는다. 더 나은 agent가 메운다.

아래는 내일의 키노트보다 더 중요한 다섯 가지 질문이다. 읽은 다음, 마음 편히 쇼를 즐기시라.

질문 1: 왜 컷 간 일관성은 여전히 깨지는가?

2026년의 모든 AI 비디오 모델은 아름다운 8초 클립을 만들어낸다. 같은 프롬프트로 한 번 더 돌리면 다른 사람, 다른 제품, 다른 브랜드 컬러, 다른 배경이 나온다. 모델은 생성 사이에 기억이 없다.

일회성 시네마틱 샷이라면 그래도 괜찮다. 진짜 비디오처럼 보이는 것 — 세 각도의 제품 데모, 1컷과 4컷에 등장하는 내레이터가 있는 광고, 고정 강사가 있는 코스 모듈 — 을 만들려고 하면 그것이 문제의 전부가 된다.

모델 레이어의 답은 레퍼런스 이미지 조건화다: 캐릭터 사진 세 장을 업로드하면 모델이 맞추려 시도한다. 70% 정도 성공한다. 나머지 30%가 실제 제작 시간이 사라지는 지점이다.

에이전트 레이어의 답은 다르다: 시퀀스 전체에 걸쳐 엔티티(캐릭터, 제품, 환경)별 레퍼런스 세트를 유지하고, 실패한 샷은 자동으로 재생성하고, 일관성이 중요한 곳에서는 seed를 고정하고, 레퍼런스의 버전 관리를 해서 브랜드 자산이 몇 달간의 콘텐츠에서 안정적으로 유지되게 만든다. 모델 개선은 도움이 된다. 출고 가능하게 만드는 것은 오케스트레이션이다.

내일 해결되지 않을 것: Veo 4는 네이티브 ID-embedding을 탑재할 수도 있다. 오늘보다 나아질 것이다. 하지만 8개 제품 SKU에 걸쳐 매달 40개 클립을 만드는 마케터가 일관성을 신경 쓰지 않아도 되게 만들지는 못할 것이다.

질문 2: 왜 아직도 "클립"이 "완성 비디오"로 오해받는가?

어떤 모델 데모를 봐도 똑같은 것을 본다: 단일 샷, 완벽한 조명, 컷 없음, 자막 없음, 음악 없음, 플랫폼별 프레이밍 없음, CTA 없음. 그건 클립이다. 누구도 실제로 게시할 만한 비디오가 아니다.

진짜 비디오 — YouTube 채널, TikTok 피드, 광고 계정, 제품 페이지에 올라가는 — 에는 스크립트, 신 구성, 보이스오버, B-roll, 타겟 언어 자막, 비트에 맞춘 컷, 첫 3초의 훅, 목적지 플랫폼에 맞춘 출력 포맷이 있다. 모델이 그중 하나를 처리한다. 나머지 열은 누군가의 수작업 문제다.

현재의 디폴트 해결책은 다섯 가지 툴을 꿰매는 것이다: 스크립트 작성기, 비디오 모델, 보이스 생성기, 에디터, 자막 툴. 각각이 자기 UI, 자기 가격, 자기 실패 모드를 가진다. 결과: 품질에 진심인 사람에게 "AI 비디오"는 여전히 완성 자산 하나당 몇 시간이 걸린다.

에이전트 레이어의 답은 전체 파이프라인을 하나의 시스템으로 소유하는 것이다. 자연어 브리프 들어가고, 완성 비디오가 나온다. Genra는 Veo와 Seedance 위에서 돌며 그 사이의 모든 단계를 처리한다. 이건 워크플로우 개선이 아니다. 다른 제품 카테고리다.

내일 해결되지 않을 것: Veo 4는 더 나은 클립을 만들 것이다. 클립에서 완성까지의 간극은 정확히 제자리에 머문다.

질문 3: 11일 후, AI 비디오 저작권은 어떻게 되는가?

2026년 5월 29일, MiniMax 저작권 소송이 심리 단계에 들어간다. 실질적 판결 단계에 도달한 첫 번째 주요 AI 비디오 저작권 소송이며, 결과는 업계 전체가 앞으로 수년간 따라야 할 선례가 될 것이다.

법원이 받은 질문에는 다음이 포함된다: 모델은 라이선스 없이 저작권이 있는 영상으로 훈련될 수 있는가? AI가 생성한 클립이 저작권이 있는 장면과 실질적으로 유사할 때, 누가 책임을 지는가 — 모델 제공자, 플랫폼, 아니면 최종 사용자? 모델이 수백만 개의 훈련 영상을 본 상태에서 "실질적으로 유사"란 도대체 무엇을 의미하는가?

이것이 내일의 키노트보다 더 중요한 이유는 단 하나다: Veo 4 발표는 제품이다. 저작권 판결은 모든 제품을 형성하는 제약이다. 판결이 한쪽으로 떨어지면, 모든 서구 AI 비디오 제공자가 현재 묵시적으로 의존하는 세이프 하버 가정이 다시 짜여야 한다. 다른 쪽으로 떨어지면, 훈련 데이터를 둘러싼 해자가 진정으로 방어 가능한 자산이 된다.

똑똑한 크리에이터와 브랜드 팀은 판결을 기다리지 않는다. 그들은 상업적 AI 비디오를 방어 가능한 증거 체인이 필요한 것으로 다룬다 — 어떤 모델을 썼고, 어떤 레퍼런스를 업로드했고, 어떤 동의를 받았는지. Genra의 파이프라인은 이것을 기본으로 로깅한다. 규제의 바닥이 계속 움직일 거라 예상하기 때문이다.

내일 해결되지 않을 것: Google은 I/O에서 MiniMax 사건을 다루지 않을 것이다. Veo 4가 어떤 스펙으로 나오든 모두의 발밑 법적 지반은 계속 움직인다.

질문 4: 완성된 AI 비디오는 결국 어디로 가는가?

비디오를 생성했다. 그래서? YouTube에는 16:9로, TikTok에는 9:16으로, Instagram Reels에는 자동재생용 자막을 박은 채로, 랜딩 페이지에는 임베드된 MP4로, 유료 광고 플랫폼에는 첫 3초를 훅 변형으로 다시 자른 채로, 이메일 리스트에는 호스팅된 플레이어로 연결되는 썸네일로 들어가야 한다.

각 목적지는 자체 화면비, 길이 상한, 파일 크기 제한, 자막 포맷, 접근성 요구사항, 애널리틱스 연동이 있다. 모델은 한 개의 렌더 출력을 만든다. 배포 작업은 별도의, 더 크고, 거의 수작업인 프로젝트다.

이것이 누구도 I/O에서 데모하지 않는 AI 비디오의 부분이다. 그리고 비디오가 돈을 버는지 폴더에 묻혀 있는지를 결정하는 부분이기도 하다.

에이전트 레이어의 답은 배포를 일등급 출력으로 만드는 것이다. 같은 브리프, 여러 플랫폼 네이티브 컷을 병렬로 생성, 각 표면의 실제 동작에 맞게 최적화 — TikTok 알고리즘은 YouTube Shorts와 같은 훅 구조를 보상하지 않고, Instagram Reels는 완전히 다른 첫 프레임을 선호한다.

내일 해결되지 않을 것: 더 나은 생성은 배포를 풀지 못한다. 플랫폼은 여전히 파편화되어 있다. 각각에 맞추는 작업량은 그대로다. 에이전트 레이어가 떠안거나, 사용자가 떠안거나 둘 중 하나다.

질문 5: AI 비디오는 언제 비용 센터에서 벗어나는가?

Google은 4월에 Veo 3.1을 무료로 만들었다. 워터마크와 8초 상한을 받아들이는 사람에게 개별 클립 생성 비용은 무너졌다. 무료 모델은 어디에나 있다. 그런데 왜 대부분 회사의 AI 비디오 예산은 여전히 늘어나고 있는가?

모델 비용은 한 번도 병목이 아니었기 때문이다. 병목은 모델 주변의 노동이다: 프롬프트 엔지니어링, 수작업 이어붙이기, 일관성 모니터링, 플랫폼별 컷팅, 이해관계자 반복 루프, 브랜드 QA. 무료 모델은 이미 반올림 오차 수준이던 항목을 0으로 만들 뿐, 실제 비용 구조는 그대로 둔다.

AI 비디오를 "실험"에서 "인프라"로 옮긴 회사들은 모델이 아니라 에이전트 레이어를 비용 단위로 다루어 그렇게 했다. 그들은 출고된 완성 비디오당 비용을 측정하지, 생성된 클립당 비용을 측정하지 않는다. 그 숫자는 "무료 모델 만세" 내러티브와는 다른 결론을 가리킨다.

대부분 팀에게 AI 비디오가 수익 센터로 가는 길은 이렇게 보인다: 브리프-투-완성 파이프라인을 한 툴로 소유하고, 다섯 툴 이어붙이기 세금을 없애고, 운영자당 주간 산출량을 측정하고, 그 아래에서 모델 레이어가 상품화되도록 둔다. 모델 비용은 0을 향한다. 단위 경제를 결정하는 것은 에이전트 레이어의 비용이다.

내일 해결되지 않을 것: Veo 4가 출시 시 무료라 해도, 당신의 다음 분기 AI 비디오 예산은 아마 늘어난다. 늘어나는 항목은 모델 사용량이 아니다. 모델 주변의 모든 것이다.

더 큰 요점

내일의 키노트는 좋은 쇼가 될 것이다. 네이티브 4K가 온다. 멀티 신 내러티브가 온다. 더 빠른 생성이 온다. Google이 내놓는 모든 의미 있는 개선을 우리는 통합할 것이다. 더 나은 모델은 진정으로 Genra의 모든 비디오를 조금 더 좋게 만들기 때문이다.

하지만 위의 다섯 질문은 더 나은 모델로 답이 나오지 않는다. 답을 내는 것은 더 나은 agent, 성숙해가는 법적 프레임워크, 그리고 데모를 프로덕션으로 오해하는 일을 그만두는 산업이다.

내일 키노트를 본 다음 돌아와서 자문해보라: 거기서 일관성, 클립-투-완성, 저작권, 배포, 진짜 단위 경제에 실제로 바늘을 움직인 게 있었는가? 우리의 예측: 첫 번째에서 약간, 나머지에서는 거의 없음.

모델 레이어는 헤드라인이다. 에이전트 레이어는 일이다.

핵심 요약

Google I/O 2026은 Veo 4 예측과 발표가 지배할 것이다. 모델은 훨씬 높은 스택 안의 한 레이어일 뿐이다.
컷 간 일관성은 대부분 오케스트레이션 문제이지 모델 문제가 아니다. 네이티브 ID-embedding은 도움이 되지만 매달 40개 클립을 출고하는 사람의 간극은 메우지 못한다.
클립은 완성 비디오가 아니다. 스크립트, 보이스오버, B-roll, 자막, 플랫폼별 컷, 배포는 모두 모델이 건드리지 않는 별개의 문제다.
5월 29일의 MiniMax 저작권 심리는 어떤 I/O 발표보다도 AI 비디오 규제를 더 강하게 형성할 것이다. 운영자들은 나중이 아니라 지금부터 출처를 로깅해야 한다.
YouTube, TikTok, Instagram, 광고, 이메일에 걸친 배포 파편화는 그 자체로 제작 세금이다. 에이전트 레이어가 떠안거나 사용자가 떠안는다.
무료 모델은 AI 비디오 제작에서 가장 싼 항목을 무너뜨린다. 진짜 단위 경제는 모델 주변의 모든 것 — 에이전트 레이어가 결정한다.
Genra는 Veo와 Seedance 위에서 돌며 전체 파이프라인을 하나의 agent로 처리한다. 내일의 모델 개선은 백엔드에 조용히 합쳐진다. 다섯 가지 진짜 질문은 그대로 남는다.

자주 묻는 질문

AI 비디오에서 에이전트 레이어란 무엇인가?

에이전트 레이어는 브리프를 배포 가능한 완성 비디오로 바꾸는 시스템이다. 스크립트, 신 구성, 모델 선택, 생성, 일관성, 보이스오버, 편집, 자막, 플랫폼별 출력을 처리한다. 모델 레이어는 클립을 생성한다. 에이전트 레이어는 비디오를 출고한다.

Veo 4가 AI 비디오 일관성을 해결할까?

부분적으로. Veo 4가 예상대로 네이티브 ID-embedding을 탑재하면, 단일 샷 일관성은 개선된다. 진행 중인 콘텐츠 파이프라인 전반에 걸친 멀티 클립, 멀티 슛, 브랜드 안정적 일관성은 여전히 오케스트레이션 — 레퍼런스 관리, 재생성 로직, seed 고정, 버전 관리 — 이 필요하다. 모델은 돕는다. 일은 agent가 한다.

Veo 3.1이 무료인데 왜 AI 비디오 제작은 무료가 아닌가?

모델이 비싼 부분이었던 적이 없기 때문이다. 비싼 부분은 모델 주변의 노동 — 프롬프트 반복, 수작업 이어붙이기, 일관성 QA, 플랫폼별 컷팅, 이해관계자 루프다. 무료 모델은 가장 싼 항목을 무너뜨릴 뿐이다. 실제 제작 비용은 에이전트 레이어에 산다.

Genra는 어떤 모델을 사용하나?

Veo와 Seedance. agent가 각 샷의 요구사항에 따라 사용할 모델을 선택한다. 사용자는 원하는 것을 설명하고, agent가 모델 선택과 나머지 파이프라인을 처리한다.

Google I/O 2026은 언제인가?

2026년 5월 19–20일. 오프닝 키노트는 5월 19일 미 동부 1:00 PM / 미 서부 10:00 AM에 시작하며 io.google에서 무료로 라이브 스트리밍된다. Veo와 Gemini 발표는 보통 첫 90분 안에 나온다.

모든 비디오에 출처를 로깅하라: 어떤 모델이 어떤 클립을 생성했는지, 어떤 레퍼런스 자료가 업로드되었는지, 그 레퍼런스에 대해 어떤 동의나 라이선스가 있는지. 감사 추적을 사후 추가가 아니라 결과물로 다뤄라. 법적 바닥은 향후 2년간 계속 움직일 것이다.

플랫폼 배포는 왜 아직도 그렇게 수작업이 많은가?

각 플랫폼이 다른 화면비, 길이 상한, 자막 포맷, 훅 패턴, 알고리즘적 선호를 갖기 때문이다. 단일 렌더 출력이 모든 표면에서 잘 퍼포먼스를 내는 일은 드물다. 같은 브리프에서 agent가 플랫폼 네이티브 변형을 생성하거나, 누군가가 수동으로 재컷한다.

저자 소개
Chris Sherman은 AI 비디오 기술, agent 아키텍처, 크리에이티브 제작 비즈니스를 다룬다. Google I/O 2026 (5월 19–20일)과 MiniMax 심리 (5월 29일) 실시간 커버리지는 @GenraAI에서.