AI 비디오 다중 개념 맞춤화 예시 - 바다에서 수영하는 파란 곰인형 수채화 일러스트
|

‘속성 뒤섞임’ 없는 AI 비디오 일관성, 구글이 찾은 해법

‘속성 뒤섞임’ 없는 AI 비디오 일관성, 구글이 찾은 해법
AI 영상 속 캐릭터가 자꾸 바뀌나요? ‘속성 뒤섞임’ 문제를 해결하고 AI 비디오 일관성을 높이는 구글의 ‘순차적 프롬프트’ 기술의 원리를 지금 바로 확인하세요.

AI에게 ‘내 곰인형’과 ‘바다’를 따로 가르쳤더니, ‘바다에서 수영하는 곰인형’을 만들어냈습니다.

AI에게 무언가를 그려달라고 할 때, 이런 경험 한 번쯤 있으실 겁니다. “특정 장소에서 특정 행동을 하는 나의 캐릭터”를 주문했는데, 전혀 엉뚱한 결과가 나오는 경우 말입니다.

비디오는 문제가 더 심각합니다. 분명 첫 장면엔 내가 원했던 ‘파란색 테디베어’가 나왔는데, 다음 장면에선 AI가 마음대로 상상한 다른 곰인형으로 바뀌어 버리곤 하죠.

이것이 바로 현세대 AI 비디오 모델의 가장 큰 한계, ‘다중 개념 맞춤화(multi-concept customization)’의 부재입니다. AI는 ‘강아지’나 ‘바이올린’처럼 일반적인 개념은 잘 만들지만, ‘특정한 강아지(A)가 특정한 바이올린(B)을 연주하는’ 영상처럼, 여러 개의 ‘맞춤형’ 개념을 하나의 영상에 일관되게 담아내질 못합니다.

그런데 최근 메릴랜드 대학과 Google DeepMind/Research가 이 문제를 정면으로 돌파할 아주 흥미로운 해법을 제시했습니다.

핵심은 AI에게 여러 개념을 한 번에 ‘주입’하는 대신, 차근차근 ‘가르치고(1단계)’ 순차적으로 ‘안내하는(2단계)’ 접근법입니다. 오늘은 이 논문을 바탕으로, AI가 어떻게 우리가 원하는 그림을 정확하고 일관되게 영상으로 만들 수 있게 되었는지 그 원리를 파헤쳐 보겠습니다.

🔬 왜 그렇게 어려웠을까? : ‘개념 유니버스’의 충돌

이 문제를 이해하려면 ‘매니폴드(Manifold)’라는 개념을 아주 살짝 맛봐야 합니다.

쉽게 비유해 보죠. AI가 ‘갈색 주전자’를 학습했다면, 이 주전자가 할 수 있는 모든 가능한 영상(차를 따르거나, 끓거나, 선반에 놓인 모습 등)의 집합을 ‘주전자 유니버스(Manifold)’라고 부를 수 있습니다. 마찬가지로 ‘붉은 나무’에 대한 ‘나무 유니버스’도 존재하겠죠.

우리가 정말 원하는 “붉은 나무 아래에서 차를 끓이는 갈색 주전자” 비디오는, 이 두 유니버스가 겹치는 아주아주 작은 ‘교차점’에 존재합니다.

문제는 기존의 미세조정(finetuning) 방식, 예를 들어 DreamBooth 스타일로 두 개념을 한 번에 가르치려 하면 AI가 이 교차점을 제대로 찾지 못하고 혼란에 빠진다는 겁니다.

기존 방식: “갈색 주전자(A)와 파란 테디베어(B)를 합쳐줘!”라고 명령하면, AI는 두 개념의 속성을 마구 뒤섞어 버립니다. ‘주전자 색깔의 테디베어’나 ‘테디베어 질감의 주전자’가 나오는 식이죠. 이를 ‘속성 뒤섞임(attribute mixup)’이라고 부릅니다.

AI가 A와 B를 ‘각각’ 아는 것과, A와 B가 ‘상호작용’하는 방식을 아는 것은 전혀 다른 차원의 문제입니다.

💡 해법: 2단계로 AI ‘가르치기’와 ‘안내하기’

연구진은 이 문제를 ‘강제로’ 교차점을 찾게 하는 대신, AI를 그 지점까지 한 걸음씩 ‘안내하는’ 방식으로 해결했습니다.

1단계: AI에게 새로운 개념을 ‘가르치기’ (미세조정)

먼저, 이미 훈련된 거대 비디오 모델(Phenaki 모델 사용)에 우리가 원하는 맞춤형 개념들을 학습시킵니다.

여기서 핵심 기술은 ‘어댑터 튜닝(adapter tuning)’이라는 효율적인 미세조정(PEFT) 방식입니다. 비유하자면, AI의 거대한 뇌(기존 모델)를 통째로 바꾸는 것이 아니라, 뇌의 지식은 그대로 둔 채 ‘이것만 특별히 기억해!’라는 작은 ‘메모지(어댑터)’를 붙이는 방식입니다.

중요한 점은, ‘B1 갈색 주전자’, ‘C2@ 파란 테디베어’처럼 여러 개념을 ‘하나의’ 메모지에 ‘모두’ 적어서 공동으로 학습시킨다는 것입니다.

2단계: AI가 영상을 만들도록 ‘안내하기’ (인과적 추론)

자, 이제 AI는 ‘갈색 주전자’와 ‘파란 테디베어’를 둘 다 아는 상태입니다. 하지만 여기서 바로 “파란 테디베어가 갈색 주전자 쪽으로 달려가는 영상”을 만들어 달라고 하면, AI는 여전히 혼란스러워합니다.

여기서 이 논문의 가장 빛나는 아이디어, 바로 ‘인과적 생성(Causal generation), 한 번에 한 주체씩’ 전략이 등장합니다.

AI 비디오 모델은 본질적으로 ‘자동 회귀(autoregressive)’ 방식, 즉 이전에 생성한 프레임을 ‘기억’하고 다음 프레임을 생성합니다. 연구진은 이 강력한 ‘기억력’을 활용했습니다.

📋

기존 방식 vs 순차적 안내

기존 방식: “붉은 나무(C2@)와 갈색 주전자(B1)가 있는 영상, 한 번에 만들어!”

순차적 안내:

첫 번째 프롬프트 (p₁): “먼저 ‘붉은 나무(C2@)’만 만들어.”

→ AI는 이 지시로 처음 몇 프레임 동안 ‘붉은 나무’가 있는 배경을 생성합니다.

두 번째 프롬프트 (p₂): “좋아, 방금 만든 그 나무(C2@)를 기억하면서, 그 아래에 ‘갈색 주전자(B1*)가 차 끓이는’ 모습을 추가해.”

→ AI는 이제 ‘붉은 나무’가 존재하는 맥락(context)을 확실히 기억한 상태에서 ‘갈색 주전자’와 그 행동을 장면에 추가합니다.

결과적으로, AI는 ‘나무 유니버스’에서 시작해 ‘주전자 유니버스’와의 교차점으로 순조롭게 ‘걸어 들어간’ 셈입니다. 이 방식은 AI가 이미 생성한 것을 ‘기억’하도록 강제함으로써, 장면의 일관성을 유지하고 속성이 뒤섞이는 문제를 원천적으로 해결합니다.

🍽️ 3가지 시나리오별 ‘순차적 프롬프트’ 레시피

연구진은 이 순차적 생성 방식이 다양한 시나리오에서 효과적임을 입증했습니다. 마치 요리 레시피처럼 명확한 순서가 있습니다.

1

피사체 + 배경 맞춤화 (Subject-Background)

목표: ‘미래형 레스토랑(배경)’에서 ‘귀여운 고양이(피사체)’가 국수를 먹는 영상.

레시피: 배경을 먼저 생성하고, 그 위에 피사체를 올립니다.

프롬프트 1 (배경 생성): B1 futuristic restaurant

프롬프트 2 (피사체 + 상호작용): a C2@ cat eating noodles in the futuristic restaurant

결과: 배경(레스토랑)이 먼저 확실하게 생성된 후, 그 안에서 고양이가 자연스럽게 행동합니다. (기존 방식은 배경을 무시하고 고양이에만 집중하는 경향을 보였습니다.)

2

피사체 + 행동 맞춤화 (Subject-Action)

목표: ‘테니스 치는 행동(행동)’을 ‘귀여운 고양이(피사체)’가 하도록 만드는 영상.

레시피: AI가 잘 모를 수 있는 ‘행동’을 일반적인 피사체로 먼저 생성한 뒤, 그 행동을 ‘맞춤형 피사체’로 교체합니다.

프롬프트 1 (행동 생성): a person playing tennis in a tennis court (일반적인 행동)

프롬프트 2 (피사체 적용): a C2@ cute cat playing tennis in a tennis court

결과: 이 방식은 AI에게 ‘테니스 치는 동작’을 먼저 ‘가르친’ 다음, 그 동작을 맞춤형 고양이에게 자연스럽게 적용시킵니다. “바이올린 켜는 강아지” 역시 이 방식으로 성공했습니다.

3

피사체 + 피사체 맞춤화 (Subject-Subject)

목표: ‘파란 테디베어(피사체1)’와 ‘귀여운 강아지(피사체2)’가 함께 밥을 먹는 영상.

레시피: 한 피사체를 먼저 생성하고, 두 번째 피사체가 그와 상호작용하도록 합니다.

프롬프트 1 (피사체 1 생성): a cute B1 dog eating together with the C2 blue teddy bear

프롬프트 2 (피사체 2 + 상호작용): a C2@ blue teddy bear eating together with a cute B1 dog

결과: 이 제어된 순차적 접근 덕분에, 두 맞춤형 피사체가 속성 혼합 없이 한 장면에 자연스럽게 어우러질 수 있었습니다.

📈 한계와 미래

물론 이 방법도 완벽하지는 않습니다. 연구진은 다음 한계점을 지적했습니다.

  • 개념의 수: 3개를 초과하는 개념을 조합하는 것은 여전히 어렵습니다. AI가 첫 단계에서 생성한 내용을 ‘잊어버릴’ 수 있기 때문입니다.
  • 제어의 복잡성: 텍스트만으로 3D 공간에서의 정교한 상호작용(예: 물체가 땅에 닿는 지점, 상대적 크기)을 제어하기는 어렵습니다.
  • 품질: 연구에 사용된 모델(Phenaki)이 저해상도 모델이라, 결과물의 품질이 최신 모델에는 미치지 못할 수 있습니다.
  • 다양성 부족: 한 장의 이미지로 피사체를 학습시키다 보니, 피사체의 다양한 모습을 상상해내는 데 한계가 있을 수 있습니다.

그럼에도 불구하고, 이 연구는 AI 비디오 생성의 가장 큰 난제였던 ‘제어’와 ‘일관성’ 문제를 해결할 매우 중요한 실마리를 제공합니다.

이는 단순히 재미있는 영상을 만드는 것을 넘어, 일관된 캐릭터와 배경이 등장하는 ‘AI 영화’나 ‘애니메이션’ 제작의 초석이 될 수 있습니다. AI가 우리의 상상력을 있는 그대로 구현해 주는 날이 정말 머지않은 것 같습니다.

Similar Posts