Sora 원리 파헤치기: 비디오 확산 모델 작동 방식
AI 영상은 어떻게 ‘진짜’처럼 움직일까요?
최근 Sora나 Gen-2 같은 AI가 만든 영상을 보고 ‘이게 어떻게 가능하지?’라고 생각하셨을지 모릅니다. 불과 몇 년 전만 해도 어색하게 깜박거리던 AI 영상이, 이제는 실제 촬영한 영상과 구별하기 어려울 정도입니다.
이 놀라운 발전의 중심에는 ‘비디오 확산 모델(Video Diffusion Models)’이라는 기술이 있습니다.
하지만 이 기술이 정확히 무엇이며, 어떻게 단순히 이미지를 나열하는 것을 넘어 ‘움직이는 시간’까지 창조해내는 걸까요? “AI가 똑똑하게 학습했다”는 말로는 이 정교한 과정을 설명하기에 부족합니다.
이 글에서는 AI 영상 생성의 핵심 원리를, 기초부터 최신 응용 기술까지 명쾌하게 해설해 드립니다.
1. 문제: AI에게 ‘동영상’이 유독 어려운 이유
AI에게 이미지를 그리는 것과 동영상을 만드는 것은 완전히 다른 차원의 문제입니다.
이미지가 ‘정지된 공간’이라면, 동영상은 ‘움직이는 시공간’입니다. AI가 해결해야 할 가장 큰 난제는 바로 ‘시간적 일관성(Temporal Consistency)’을 지키는 것입니다.
- 정체성 유지: 1초 전의 ‘A’라는 인물이 1초 후에 ‘B’처럼 보여선 안 됩니다.
- 자연스러운 움직임: 물체가 순간이동하거나 물리 법칙을 무시하고 움직이면 안 됩니다.
- 안정적인 배경: 주인공이 움직여도 배경이 함께 ‘울렁거리며’ 흔들려서는 안 됩니다.
과거의 GAN 방식: 왜 실패했을까?
과거 주류였던 GAN(생성적 적대 신경망) 방식은 이 문제에서 애를 먹었습니다. GAN은 ‘진짜 같은 한 컷’을 그리는 데는 탁월했지만, 각 프레임을 독립적으로 생성하려는 경향이 강했습니다.
이는 마치 솜씨 좋은 화가 30명에게 ‘이어 그리기’를 시킨 것과 비슷합니다. 각 그림 자체는 훌륭하지만, 전부 이어 붙이면 주인공의 얼굴이나 옷차림이 미세하게 바뀌는 ‘깜박임(flickering)’ 현상이 발생했습니다.
2. 해결책: ‘확산 모델’의 역발상
이때 ‘확산 모델(Diffusion Model)’이라는 새로운 패러다임이 등장했습니다. 이 모델의 기본 아이디어는 아주 흥미로운 ‘역발상’입니다.
“무질서(노이즈)에서 질서(이미지)를 창조하는 법을 배운다.”
순방향 프로세스 (Forward Process)
멀쩡한 원본 이미지에 노이즈를 수백, 수천 단계에 걸쳐 아주 조금씩 뿌립니다. 이미지가 형체를 알아볼 수 없는 완전한 ‘백색소음’이 될 때까지 반복합니다. (이 과정은 쉽습니다.)
역방향 프로세스 (Reverse Process)
이제 AI(신경망)에게 이 과정을 정반대로 시킵니다. 완전한 노이즈에서 시작해, 각 단계에서 ‘어떤 노이즈가 추가됐었는지’ 예측하고 그것을 제거(Denoise)하도록 학습시킵니다.
이 수천 번의 미세한 ‘복원’ 작업을 통해, AI는 아무것도 없는 노이즈에서 정교한 이미지를 ‘빚어내는’ 법을 배웁니다. 마치 돌덩이(노이즈)에서 조금씩 깎아내어 완벽한 조각상(이미지)을 만드는 과정과 같습니다.
이 방식은 GAN보다 훨씬 안정적이며, 이미지 품질 또한 뛰어났습니다.
3. 핵심: 이미지 기술을 ‘동영상’으로 확장한 3가지 요소
그렇다면 이 ‘이미지’ 생성 기술을 어떻게 ‘동영상’에 적용했을까요? 단순히 이미지를 여러 장 만들어 붙여서는 ‘시간적 일관성’을 해결할 수 없습니다.
연구자들은 이 문제를 해결하기 위해 크게 3가지 핵심 구조(아키텍처)를 영리하게 조합했습니다.
① VAE (작업 공간 압축)
동영상의 모든 픽셀(예: 1920×1080)을 직접 처리하는 것은 엄청난 컴퓨팅 자원을 낭비하는 일입니다. VAE(Variational Autoencoder)는 이 고해상도 영상을 사람이 인지하지 못하는 저차원의 ‘잠재 공간(Latent Space)’으로 꾹 압축합니다.
AI는 이 ‘작업용 축소판’에서 핵심 작업(노이즈 제거)을 수행하고, 결과물만 VAE를 통해 다시 고해상도 영상으로 복원합니다. 이는 연산 효율을 극적으로 높인 ‘잠재 확산 모델(Latent Diffusion Models, LDM)’의 기반이 되었습니다.
② UNet (노이즈 제거기 + 시간축)
실제로 노이즈를 제거하는 ‘일’을 하는 핵심 일꾼이 UNet 아키텍처입니다. 기존의 2D UNet이 이미지(가로, 세로)만 봤다면, 비디오용 모델은 이를 3D로 확장해 ‘시간’ 차원까지 함께 처리하도록 설계했습니다.
여기에 ‘시간적 어텐션(Temporal Attention)’이라는 장치를 추가하여, 모델이 1번 프레임을 만들 때 5번, 10번 프레임의 정보를 ‘곁눈질’하게 만듭니다. 덕분에 앞뒤 맥락에 맞는 일관성을 유지할 수 있습니다.
③ Transformers (DiT) (문맥 이해의 왕)
최근 Sora와 같은 고성능 모델들은 UNet 대신 트랜스포머(Transformer) 아키텍처(DiT)를 사용합니다. 트랜스포머는 본래 언어(LLM)를 처리하며 문장 전체의 ‘문맥’을 이해하는 데 탁월한 기술입니다.
이를 영상에 적용하자, 모델은 영상의 전체적인 ‘시공간적 문맥(스토리)’을 훨씬 더 잘 이해하게 되었습니다. 영상 프레임을 ‘패치(조각)’ 단위로 쪼개어 언어의 ‘단어(토큰)’처럼 처리함으로써, UNet보다 더 넓은 범위의 관계를 학습할 수 있게 된 것입니다.
[요약] VAE가 영상을 효율적으로 ‘압축’하고, 트랜스포머(DiT)가 ‘문맥’을 이해하며 노이즈를 제거하는 핵심 두뇌 역할을 수행합니다.
4. 응용: 비디오 확산 모델은 어디에 사용될까요?
이 기술은 단순히 텍스트로 영상을 만드는(Text-to-Video) 데 그치지 않습니다. 다양한 ‘조건(Conditions)’을 입력받아 여러 응용 분야에서 활용됩니다.
주요 응용 분야
- 영상 강화 (Enhancement): 저해상도 영상을 고해상도로 바꾸거나(Super-Resolution), 오래된 영상의 노이즈를 제거하고(Denoising), 영상의 특정 부분만 감쪽같이 지웁니다(Inpainting).
- 개인화 (Personalization): 단 한 장의 사진이나 특정 인물의 사진 몇 장만으로 그 인물이 말하고 움직이는 영상을 만들어냅니다. (예: EMO, VASA-1)
- 3D 인식 생성 (3D-aware): 모델이 2D 영상 데이터만 보고도 3D 공간을 암묵적으로 학습하여, 카메라 시점을 자유자재로 움직이거나 3D 씬을 생성하는 데 활용됩니다.
다양한 조건 제어 (Conditions)
- 이미지: 첫 프레임 이미지를 주고 뒷이야기를 생성합니다.
- 오디오: 사람의 말소리(Audio)에 맞춰 입 모양과 표정을 생성합니다.
- 공간/궤적: ‘이 물체는 이 궤적을 따라 움직여라’ 같은 공간 정보를 제어합니다.
5. 남은 과제: 한계와 윤리적 문제
이 기술은 혁명적이지만, 명확한 과제와 윤리적 문제를 안고 있습니다.
- 엄청난 컴퓨팅 비용: 수천 번의 노이즈 제거 단계를 거치는 확산 모델은 훈련과 추론(영상 생성)에 막대한 계산량이 필요합니다.
- 물리 법칙의 오류: AI는 아직 현실 세계의 복잡한 물리적 상호작용(예: 유리가 깨지는 방식, 물의 정확한 파동)을 완벽히 이해하지 못합니다.
- 긴 영상 생성의 어려움: 수 분 길이의 긴 영상을 생성할 때, 여전히 이야기의 일관성을 유지하고 앞부분의 디테일을 잊지 않게 하는 것은 큰 도전입니다.
- 윤리적 문제 (Deepfakes): 기술의 발전은 곧 ‘딥페이크’의 정교화와 직결됩니다. 생성된 영상이 가짜 뉴스, 명예 훼손, 사기 등에 악용될 위험은 이 기술의 가장 큰 그림자입니다.
6. 결론: 노이즈에서 ‘문맥’을 읽어낸 AI
비디오 확산 모델은 AI가 ‘픽셀’을 다루는 방식에서 ‘문맥’과 ‘시간’을 이해하는 방식으로 진화했음을 보여줍니다. GAN의 불안정성을 극복하고, VAE, 트랜스포머 같은 강력한 아키텍처와 결합하며 우리는 비로소 ‘진짜 같은 가짜’ 영상을 손에 넣게 되었습니다.
물론 기술적, 윤리적 과제는 여전히 남아있습니다. 하지만 이 기술이 열어갈 창의적인 표현의 가능성, 자동화된 콘텐츠 제작, 가상현실의 미래는 우리가 상상하는 것 이상일 것입니다.
이제 우리는 노이즈가 예술이 되는 시대를 살고 있습니다.
