VideoDirectorGPT의 LLM이 AI 영상 감독 역할을 수행하는 컨셉 이미지. 한 인물이 여러 화면에 나뉜 고양이 영상의 '일관성'을 제어하며 AI 스토리텔링을 만들고 있다.
|

VideoDirectorGPT: AI 영상의 ‘3초 움짤’ 한계를 넘다

VideoDirectorGPT: AI 영상의 ‘3초 움짤’ 한계를 넘다

AI 영상이 ‘움짤’에 머무는 이유는 ‘영상 일관성’ 부족 때문입니다. VideoDirectorGPT는 LLM이 감독 역할을 맡아 이 문제를 해결, 진정한 AI 스토리텔링을 가능하게 합니다. 핵심 원리를 확인하세요.

VideoDirectorGPT의 LLM이 AI 영상 감독 역할을 수행하는 컨셉 이미지. 한 인물이 여러 화면에 나뉜 고양이 영상의 '일관성'을 제어하며 AI 스토리텔링을 만들고 있다.

AI 영상은 왜 아직 3초짜리 ‘움짤’에 머물러 있을까요?

AI로 멋진 이미지를 만드는 건 이제 꽤 익숙해졌습니다. 하지만 ‘텍스트를 영상으로(T2V)’ 만드는 기술은 왜 아직도 어색할까요? 우리가 접하는 AI 영상 대부분은 3~4초짜리 짧은 클립이거나, 한 가지 동작만 반복하는 ‘움짤’에 가깝습니다.

가장 큰 문제는 ‘일관성’입니다. 1번 장면에 나온 주인공이 2번 장면에서 갑자기 다른 옷을 입고 있거나, 배경 소품이 멋대로 바뀌는 식이죠. 이는 AI가 ‘맥락’과 ‘흐름’을 기억하지 못하기 때문입니다.

그런데 만약, AI에게 ‘영화감독’의 역할을 맡기면 어떨까요?

최근 UNC 채플힐 연구팀이 발표한 VideoDirectorGPT는 바로 이 문제를 해결하기 위해 등장한 새로운 프레임워크입니다. GPT-4와 같은 거대 언어 모델(LLM)이 ‘비디오 감독’이 되어, 여러 장면에 걸친 긴 비디오를 일관성 있게 만들도록 지시하는 방식이죠.

이 기술이 어떻게 AI를 ‘단순 클립 생성기’에서 ‘스토리텔링 도구’로 바꾸고 있는지, 핵심만 짚어 설명해 드리겠습니다.

1. 문제는 ‘단기 기억상실’이었습니다

기존 AI 영상 모델의 가장 큰 한계는 ‘시공간적 일관성(temporal consistency)’이 부족하다는 점입니다. 쉽게 말해 ‘단기 기억상실’에 걸린 셈이죠.

기존 모델:

“운전하는 자동차” 영상을 만들라고 하면, 몇 분짜리 영상을 만들 수는 있습니다. 하지만 그 내용은 사실상 ‘운전’이라는 단일 행동의 반복일 뿐입니다.

우리가 원하는 것 (스토리):

“배고픈 고양이가 부엌으로 걸어가 간식을 먹는다”처럼, 여러 장면(multi-scene)으로 구성된 ‘이야기’입니다.

기존 모델은 1번 장면의 ‘하얀 고양이’가 3번 장면에서도 ‘그 하얀 고양이’여야 한다는 사실을 쉽게 잊어버립니다. VideoDirectorGPT는 이 문제를 ‘감독(LLM)’을 고용해 해결했습니다.

2. 해결책: ‘기획팀(LLM)’과 ‘촬영팀(생성 모델)’의 분업

VideoDirectorGPT는 복잡한 영상 제작 과정을 영화 시스템처럼 딱 두 단계로 나눴습니다.

1단계: 비디오 플래너 (기획팀/감독)

  • 역할: GPT-4 (LLM)가 담당합니다.
  • 임무: 사용자의 단순한 프롬프트(“고양이 밥 먹는 영상”)를 받아서, 아주 상세한 장면별 스크립트, 즉 ‘비디오 계획(Video Plan)’을 작성합니다.

2단계: 비디오 생성기 (촬영팀)

  • 역할: Layout2Vid라는 특수 모듈이 담당합니다.
  • 임무: ‘비디오 계획’을 정확히 따르면서, 실제 영상을 촬영(렌더링)합니다.

간단하죠? LLM은 ‘스토리 기획’에 강점이 있고, 생성 모델은 ‘실제 그리기’에 강점이 있으니, 각자 가장 잘하는 일에 집중시킨 것입니다.

3. 1단계: LLM 감독은 어떻게 ‘촬영 계획서’를 만드나요?

이 시스템의 성공은 ‘비디오 계획’이 얼마나 꼼꼼한지에 달려있습니다. LLM(감독)은 다음 4가지 핵심 요소가 담긴 기획안을 만듭니다.

장면별 설명:

전체 스토리를 논리적인 장면으로 나눕니다. (예: “Scene 1: 고양이가 침대에 누워있다”, “Scene 2: 고양이가 부엌으로 걸어간다”…)

개체 및 레이아웃:

각 장면에 누가(개체) 어디에(레이아웃) 있어야 하는지 2D 좌표로 지정합니다. “고양이는 화면 왼쪽”처럼 말이죠.

배경:

“침실”, “부엌” 등 각 장면의 배경을 명시합니다.

일관성 그룹핑 (★핵심):

이것이 핵심입니다. 여러 장면에 걸쳐 동일하게 유지되어야 할 개체를 그룹으로 묶습니다.

예시: ‘일관성 그룹핑’이란?

{'주인공 고양이': [1, 2, 3], '고양이 간식': [3]}

이렇게 지시하는 겁니다. 이 말은 “1, 2, 3번 장면에 나오는 ‘주인공 고양이’는 모두 시각적으로 동일한 모습이어야 한다”라는 뜻입니다. 마치 배우 캐스팅 목록을 정해주는 것과 같죠.

4. 2단계: 촬영팀(Layout2Vid)은 어떻게 계획을 따르나요?

이제 ‘촬영팀’인 Layout2Vid가 이 치밀한 계획서를 받아 실제 영상을 만듭니다. 여기에는 두 가지 재미있는 기술이 사용됩니다.

핵심 기술 1: 레이아웃 제어 (이미지로 학습)

놀랍게도 Layout2Vid는 비디오 데이터셋이 아니라 ‘이미지’ 데이터셋으로만 학습되었습니다. 비디오에 일일이 “이건 고양이”라고 태그하는 건 비용이 엄청나게 비싸기 때문이죠.

대신 레이아웃(좌표) 정보가 태그된 이미지를 학습함으로써, LLM이 계획한 ‘좌표값’을 따라 개체를 배치하고 움직이는 능력을 효율적으로 확보했습니다.

핵심 기술 2: 일관성 제어 (특징값 복사/붙여넣기)

‘일관성 그룹핑’은 어떻게 구현할까요? 아까 LLM이 {'주인공 고양이': [1, 2, 3]}이라고 묶어줬죠.

Layout2Vid는 1번 장면의 ‘주인공 고양이’를 그릴 때 사용한 ‘시각적 특징값(임베딩)’을 복사해 둡니다. 그리고 2번과 3번 장면에서도 그 값을 그대로 ‘붙여넣기’합니다.

이 간단한 방법으로 여러 장면에 걸쳐 동일한 개체가 일관된 외형을 유지하도록 강제하는 것입니다.

5. 그래서 결과는 어떤가요?

연구팀은 이 프레임워크가 기존 모델보다 얼마나 나은지 여러 테스트를 진행했습니다.

(1) 레이아웃 및 움직임 제어

주문: “코끼리 왼쪽에 피자” 또는 “배를 오른쪽에서 왼쪽으로 밀기”

  • 기존 모델: ‘피자’를 생성조차 못 하거나, ‘배’를 밀지 못하고 가만히 놔둡니다.
  • VideoDirectorGPT: LLM이 계획한 네모칸(바운딩 박스) 안에 정확히 개체를 배치하고 움직였습니다.

(2) 다중 장면 일관성

주문: “생쥐가 책을 들고 있다. → 그(he)가 꽃잎을 딴다. → 그(he)가 웃고 있다.” (모두 동일한 생쥐여야 함)

  • 기존 모델: 첫 장면에 ‘생쥐’가 나왔다가, 두 번째엔 ‘손’이, 세 번째엔 ‘개’가 나오는 등 일관성을 완전히 잃었습니다.
  • VideoDirectorGPT: ‘일관성 그룹핑’ 덕분에 모든 장면에 걸쳐 동일한 ‘생쥐’가 등장해 스토리를 이어갔습니다.

(3) 단일 프롬프트 스토리텔링

주문: “캐러웨이 케이크 만드는 법”

  • 기존 모델: ‘완성된 케이크’ 이미지만 반복해서 보여줍니다.
  • VideoDirectorGPT: LLM이 스스로 5단계(“1. 재료 섞기”, “2. 반죽 붓기”…)의 ‘비디오 계획’을 생성했고, 동일한 주방과 요리사가 등장하며(일관성) 요리 과정을 완벽하게 구현했습니다.

6. 요약: ‘움직이는 이미지’에서 ‘진짜 이야기’로

물론 VideoDirectorGPT도 아직 완벽하진 않습니다. 여러 개체가 너무 겹쳐있으면 레이아웃 제어가 어렵고, 배경을 세밀하게 제어하는 데도 한계가 있다고 합니다.

그럼에도 이 연구가 중요한 이유는, ‘LLM이 기획하고, 생성 모델이 촬영한다’는 2단계 접근 방식을 제시했기 때문입니다.

이전까지 AI 비디오가 ‘움직이는 이미지’나 ‘CCTV’에 가까웠다면, 이제는 ‘시작과 끝이 있는 이야기’를 만들 수 있는 가능성을 연 것입니다. LLM이 단순한 챗봇을 넘어 ‘창의적인 감독’으로 진화하고 있습니다. 머지않아 AI에게 “내가 쓴 시나리오대로 단편 영화 한 편 만들어줘”라고 요청할 날도 그리 멀지 않은 것 같습니다.

Similar Posts