VideoStudio: AI 영상 ‘일관성’ 문제, 이렇게 해결했다
AI로 영상을 만들 때 가장 답답한 점이 무엇인가요? 아마 ‘일관성’ 문제일 겁니다.
문제의 핵심: 주인공의 외모가 매번 바뀐다
“파란 머리 남자가 케이크를 만든다“고 주문했다고 상상해 보시죠.
잘못된 사례
1번 장면에서는 파란 머리 남자가 재료를 계량하는데, 2번 장면에서는 갑자기 검은 머리 남자가 반죽을 붓습니다. 주인공의 외모가 장면마다 멋대로 바뀌는 겁니다.
올바른 사례
1번부터 6번 장면까지 ‘파란 머리 남자‘라는 동일 인물이 등장하여, [재료 계량 → 반죽 붓기 → 굽기 → 테이블에 놓기 → 친구 초대]라는 논리적인 행동을 순서대로 보여줍니다.
기존 방식의 한계
기존 AI 영상 모델은 대부분 단일 장면을 만드는 데 그쳤습니다. 여러 장면을 만들더라도, 이렇게 주인공의 외모를 고정(시각적 일관성)하고 이야기의 순서를 맞추는(논리적 흐름) 것을 매우 어려워했죠.
최근 HiDream.ai 연구팀이 제안한 ‘VideoStudio’라는 프레임워크는 이 두 가지 핵심 난제를 해결했습니다. 이 모델이 어떻게 ‘진짜’ 영상에 가까운 결과물을 만드는지, 그 핵심 원리를 알기 쉽게 설명해 드립니다.
첫 번째 열쇠: LLM이 ‘기획자’가 되어 논리를 만듭니다
VideoStudio의 첫 번째 핵심은 ‘기획’입니다. 우리가 “파란 머리 남자가 케이크를 만든다”는 단순한 프롬프트를 입력하면, VideoStudio는 이 문장을 먼저 대규모 언어 모델(LLM)에게 보냅니다.
LLM은 이 단순한 주제를 받아, 논리적인 순서를 갖춘 ‘멀티씬 비디오 스크립트(대본)’로 확장합니다.
LLM이 생성한 대본 예시
Scene 1: 젊은 남자가 재료를 계량합니다. (카메라: 고정)
Scene 2: 젊은 남자가 반죽을 팬에 붓습니다. (카메라: 왼쪽으로 느리게)
Scene 3: 젊은 남자가 팬의 반죽을 젓습니다. (카메라: 고정)
Scene 4: 젊은 남자가 케이크를 테이블에 놓습니다. (카메라: 오른쪽으로 중간 속도)
Scene 5: 젊은 남자가 친구들을 초대하기 위해 전화를 겁니다.
Scene 6: 젊은 남자가 친구들을 기다리기 위해 집 밖에 있습니다.
이처럼 LLM이 논리적 추론 능력을 발휘해 이야기의 뼈대를 세워주기 때문에, 사람이 일일이 장면을 구상할 필요 없이 자연스러운 이야기 흐름이 완성됩니다. 심지어 카메라 움직임까지 기획해 주죠.
두 번째 열쇠: ‘참조 이미지’로 외모를 고정합니다
논리적인 대본이 준비되었지만, 각 장면을 따로 생성하면 ‘파란 머리 남자’의 외모가 장면마다 달라지는 치명적인 문제가 발생합니다.
VideoStudio는 이 문제를 ‘참조 이미지(Reference Image)’라는 아주 영리한 방법으로 해결합니다.
참조 이미지 생성 프로세스
공통 객체 찾기: 먼저 LLM이 대본 전체에서 ‘젊은 남자’, ‘케이크’, ‘부엌’처럼 반복해서 등장하는 핵심 요소를 식별합니다.
상세 묘사 생성: 그다음, LLM에게 이 ‘젊은 남자’에 대해 자세히 묘사하라고 요청합니다. 이때 원본 프롬프트의 핵심 특징인 ‘파란 머리‘가 묘사에 포함되도록 강조합니다.
‘기준점’ 이미지 생성: 이 상세한 묘사(텍스트)를 스테이블 디퓨전 같은 텍스트-이미지 모델에 입력하여, ‘파란 머리 남자’의 기준이 되는 이미지를 딱 한 장 생성합니다.
이렇게 생성된 ‘파란 머리 남자’ 참조 이미지는 일종의 ‘시각적 닻(Anchor)’ 역할을 합니다. 이후 생성되는 모든 장면에 등장하는 ‘젊은 남자’는 반드시 이 참조 이미지의 외모를 따르도록 강제되는 것이죠.
핵심 동작 원리: 2단계 생성을 통한 영상 제작
이제 ‘대본(논리)‘과 ‘참조 이미지(일관성)‘라는 두 가지 핵심 재료가 준비되었습니다. VideoStudio는 이 재료들을 2단계에 걸쳐 최종 영상으로 만듭니다.
1단계: VideoStudio-Img (장면별 스틸 컷 생성)
먼저, 각 장면에 맞는 ‘스틸 컷(멈춘 이미지)‘을 만듭니다. 이때 모델은 3가지 다른 종류의 재료를 동시에 입력받습니다.
입력 1 (텍스트): 해당 장면의 대본 (예: “젊은 남자가 케이크를 테이블에 놓는다”)
입력 2 (시각): 전경 참조 이미지 (예: ‘파란 머리 남자’ 이미지)
입력 3 (시각): 배경 참조 이미지 (예: ‘부엌’ 이미지)
이 3중 입력을 통해 ‘부엌(배경)에서 케이크를 테이블에 놓는 파란 머리 남자(전경)’의 멈춰진 한 장면이, 논리와 일관성을 모두 갖춘 상태로 생성됩니다.
2단계: VideoStudio-Vid (스틸 컷을 영상 클립으로)
다음으로, 1단계에서 만든 이 ‘장면-참조 이미지‘를 입력받아 실제 ‘비디오 클립‘으로 만듭니다.
이 모델은 정적인 이미지를 동적인 영상으로 만들기 위해 두 가지 추가 정보를 활용합니다.
동작 정보: 대본에 묘사된 ‘테이블에 놓는다’ 같은 동작(Action)이 영상에서 잘 표현되도록 유도합니다.
카메라 움직임: LLM이 기획한 카메라 방향과 속도(예: ‘오른쪽으로 중간 속도’)를 영상에 실제로 반영합니다.
결과: ‘일관성’에서 압도적인 성능
VideoStudio는 다른 최신 영상 생성 모델(SOTA)들과 비교 평가되었습니다. 그 결과, 시각적 품질은 물론, 특히 이 연구의 핵심 목표였던 ‘장면 간 일관성(Scene Consis.)‘ 점수에서 다른 모델들을 큰 차이로 능가했습니다.
| 데이터셋 | VideoStudio (제안 모델) | VideoDirectorGPT (경쟁 모델) |
|---|---|---|
| ActivityNet | 75.1 | 61.8 |
| Coref-SV | 77.3 | 42.8 |
흥미로운 점은, VideoStudio에서 ‘참조 이미지’ 기능을 끈 버전(w/o Ref.)과 비교했을 때, 일관성 점수가 50.8점에서 75.1점(ActivityNet 기준)으로 수직 상승했다는 것입니다. 앞서 설명한 ‘시각적 닻‘ 전략이 얼마나 효과적이었는지 명확하게 증명된 셈이죠.
요약: 논리와 일관성, 두 마리 토끼를 잡다
VideoStudio는 그동안 AI 영상 생성의 가장 큰 난제였던 ‘일관성 있는 멀티씬 비디오‘ 문제를 해결한 혁신적인 프레임워크입니다.
논리: LLM이 전문 기획자처럼 논리적인 스크립트를 짜고,
일관성: ‘참조 이미지’가 주연 배우의 얼굴과 외형을 모든 장면에 고정시킵니다.
이 기술 덕분에, 우리는 ‘파란 머리 남자’가 케이크를 완성하기까지의 모든 여정을 동일 인물로, 그리고 논리적인 순서로 따라갈 수 있게 되었습니다. 영화, 광고, 교육 등 다양한 콘텐츠 제작 방식에 큰 변화를 가져올 잠재력이 엿보입니다.
