VideoDirectorGPT: AI 영상의 '3초 움짤' 한계를 넘다

최근 UNC 채플힐 연구팀이 발표한 VideoDirectorGPT는 바로 이 문제를 해결하기 위해 등장한 새로운 프레임워크입니다. GPT-4와 같은 거대 언어 모델(LLM)이 ‘비디오 감독’이 되어, 여러 장면에 걸친 긴 비디오를 일관성 있게 만들도록 지시하는 방식이죠.

이 기술이 어떻게 AI를 ‘단순 클립 생성기’에서 ‘스토리텔링 도구’로 바꾸고 있는지, 핵심만 짚어 설명해 드리겠습니다.

1. 문제는 ‘단기 기억상실’이었습니다

기존 AI 영상 모델의 가장 큰 한계는 ‘시공간적 일관성(temporal consistency)’이 부족하다는 점입니다. 쉽게 말해 ‘단기 기억상실’에 걸린 셈이죠.

기존 모델:

“운전하는 자동차” 영상을 만들라고 하면, 몇 분짜리 영상을 만들 수는 있습니다. 하지만 그 내용은 사실상 ‘운전’이라는 단일 행동의 반복일 뿐입니다.

우리가 원하는 것 (스토리):

“배고픈 고양이가 부엌으로 걸어가 간식을 먹는다”처럼, 여러 장면(multi-scene)으로 구성된 ‘이야기’입니다.

기존 모델은 1번 장면의 ‘하얀 고양이’가 3번 장면에서도 ‘그 하얀 고양이’여야 한다는 사실을 쉽게 잊어버립니다. VideoDirectorGPT는 이 문제를 ‘감독(LLM)’을 고용해 해결했습니다.

2. 해결책: ‘기획팀(LLM)’과 ‘촬영팀(생성 모델)’의 분업

VideoDirectorGPT는 복잡한 영상 제작 과정을 영화 시스템처럼 딱 두 단계로 나눴습니다.

1단계: 비디오 플래너 (기획팀/감독)

역할: GPT-4 (LLM)가 담당합니다.
임무: 사용자의 단순한 프롬프트(“고양이 밥 먹는 영상”)를 받아서, 아주 상세한 장면별 스크립트, 즉 ‘비디오 계획(Video Plan)’을 작성합니다.

2단계: 비디오 생성기 (촬영팀)

역할: Layout2Vid라는 특수 모듈이 담당합니다.
임무: ‘비디오 계획’을 정확히 따르면서, 실제 영상을 촬영(렌더링)합니다.

간단하죠? LLM은 ‘스토리 기획’에 강점이 있고, 생성 모델은 ‘실제 그리기’에 강점이 있으니, 각자 가장 잘하는 일에 집중시킨 것입니다.

3. 1단계: LLM 감독은 어떻게 ‘촬영 계획서’를 만드나요?

이 시스템의 성공은 ‘비디오 계획’이 얼마나 꼼꼼한지에 달려있습니다. LLM(감독)은 다음 4가지 핵심 요소가 담긴 기획안을 만듭니다.

장면별 설명:

전체 스토리를 논리적인 장면으로 나눕니다. (예: “Scene 1: 고양이가 침대에 누워있다”, “Scene 2: 고양이가 부엌으로 걸어간다”…)

개체 및 레이아웃:

각 장면에 누가(개체) 어디에(레이아웃) 있어야 하는지 2D 좌표로 지정합니다. “고양이는 화면 왼쪽”처럼 말이죠.

배경:

“침실”, “부엌” 등 각 장면의 배경을 명시합니다.

일관성 그룹핑 (★핵심):

이것이 핵심입니다. 여러 장면에 걸쳐 동일하게 유지되어야 할 개체를 그룹으로 묶습니다.

예시: ‘일관성 그룹핑’이란?

{'주인공 고양이': [1, 2, 3], '고양이 간식': [3]}

이렇게 지시하는 겁니다. 이 말은 “1, 2, 3번 장면에 나오는 ‘주인공 고양이’는 모두 시각적으로 동일한 모습이어야 한다”라는 뜻입니다. 마치 배우 캐스팅 목록을 정해주는 것과 같죠.

4. 2단계: 촬영팀(Layout2Vid)은 어떻게 계획을 따르나요?

이제 ‘촬영팀’인 Layout2Vid가 이 치밀한 계획서를 받아 실제 영상을 만듭니다. 여기에는 두 가지 재미있는 기술이 사용됩니다.

핵심 기술 1: 레이아웃 제어 (이미지로 학습)

놀랍게도 Layout2Vid는 비디오 데이터셋이 아니라 ‘이미지’ 데이터셋으로만 학습되었습니다. 비디오에 일일이 “이건 고양이”라고 태그하는 건 비용이 엄청나게 비싸기 때문이죠.

대신 레이아웃(좌표) 정보가 태그된 이미지를 학습함으로써, LLM이 계획한 ‘좌표값’을 따라 개체를 배치하고 움직이는 능력을 효율적으로 확보했습니다.

핵심 기술 2: 일관성 제어 (특징값 복사/붙여넣기)

‘일관성 그룹핑’은 어떻게 구현할까요? 아까 LLM이 {'주인공 고양이': [1, 2, 3]}이라고 묶어줬죠.

Layout2Vid는 1번 장면의 ‘주인공 고양이’를 그릴 때 사용한 ‘시각적 특징값(임베딩)’을 복사해 둡니다. 그리고 2번과 3번 장면에서도 그 값을 그대로 ‘붙여넣기’합니다.

이 간단한 방법으로 여러 장면에 걸쳐 동일한 개체가 일관된 외형을 유지하도록 강제하는 것입니다.

5. 그래서 결과는 어떤가요?

연구팀은 이 프레임워크가 기존 모델보다 얼마나 나은지 여러 테스트를 진행했습니다.

(1) 레이아웃 및 움직임 제어

주문: “코끼리 왼쪽에 피자” 또는 “배를 오른쪽에서 왼쪽으로 밀기”

기존 모델: ‘피자’를 생성조차 못 하거나, ‘배’를 밀지 못하고 가만히 놔둡니다.
VideoDirectorGPT: LLM이 계획한 네모칸(바운딩 박스) 안에 정확히 개체를 배치하고 움직였습니다.

(2) 다중 장면 일관성

주문: “생쥐가 책을 들고 있다. → 그(he)가 꽃잎을 딴다. → 그(he)가 웃고 있다.” (모두 동일한 생쥐여야 함)

기존 모델: 첫 장면에 ‘생쥐’가 나왔다가, 두 번째엔 ‘손’이, 세 번째엔 ‘개’가 나오는 등 일관성을 완전히 잃었습니다.
VideoDirectorGPT: ‘일관성 그룹핑’ 덕분에 모든 장면에 걸쳐 동일한 ‘생쥐’가 등장해 스토리를 이어갔습니다.

(3) 단일 프롬프트 스토리텔링

주문: “캐러웨이 케이크 만드는 법”

기존 모델: ‘완성된 케이크’ 이미지만 반복해서 보여줍니다.
VideoDirectorGPT: LLM이 스스로 5단계(“1. 재료 섞기”, “2. 반죽 붓기”…)의 ‘비디오 계획’을 생성했고, 동일한 주방과 요리사가 등장하며(일관성) 요리 과정을 완벽하게 구현했습니다.

6. 요약: ‘움직이는 이미지’에서 ‘진짜 이야기’로

물론 VideoDirectorGPT도 아직 완벽하진 않습니다. 여러 개체가 너무 겹쳐있으면 레이아웃 제어가 어렵고, 배경을 세밀하게 제어하는 데도 한계가 있다고 합니다.

그럼에도 이 연구가 중요한 이유는, ‘LLM이 기획하고, 생성 모델이 촬영한다’는 2단계 접근 방식을 제시했기 때문입니다.

이전까지 AI 비디오가 ‘움직이는 이미지’나 ‘CCTV’에 가까웠다면, 이제는 ‘시작과 끝이 있는 이야기’를 만들 수 있는 가능성을 연 것입니다. LLM이 단순한 챗봇을 넘어 ‘창의적인 감독’으로 진화하고 있습니다. 머지않아 AI에게 “내가 쓴 시나리오대로 단편 영화 한 편 만들어줘”라고 요청할 날도 그리 멀지 않은 것 같습니다.

VideoDirectorGPT: AI 영상의 ‘3초 움짤’ 한계를 넘다

AI 영상은 왜 아직 3초짜리 ‘움짤’에 머물러 있을까요?