AI 비디오 생성, 왜 물리 법칙을 모를까? (Sora의 한계와 해결책)

최근 Sora나 Lumiere 같은 비디오 생성 모델들이 보여주는 결과물은 시각적으로 충격적입니다. 털 한 올의 디테일이나 빛의 반사, 정말 아름답죠.

하지만 ‘화질’이라는 껍데기를 벗기고 자세히 들여다보면 어딘가 기괴한 지점이 보입니다. 걷다가 발이 땅속으로 꺼지거나, 컵이 테이블 위를 아이스링크처럼 미끄러지고, 물체가 유령처럼 서로를 통과해버립니다.

지금까지의 AI는 ‘세상이 어떻게 보이는지(Visual Quality)’는 마스터했지만, ‘세상이 어떻게 작동하는지(Physical Principles)’는 배우지 못했기 때문입니다. 화질은 4K인데, 물리 지능은 신생아 수준인 셈이죠.

오늘 소개할 논문 “Bootstrapping Physics-Grounded Video Generation through VLM-Guided Iterative Self-Refinement”는 바로 이 문제를 해결할 흥미로운 접근법을 제시합니다. 비디오 모델을 뜯어고치는 게 아니라, 똑똑한 선생님(VLM)과 통역사(LLM)를 붙여주는 방식입니다.

이 논문이 제시하는 de>MM-CoT(Multimodal Chain-of-Thought) 방법론이 비디오 생성 AI의 판도를 어떻게 바꿀지, 핵심만 추려 정리해 드립니다.

핵심 문제: 화려한 영상 속 ‘가짜 물리’

Table of Contents 숨기기

핵심 문제: 화려한 영상 속 ‘가짜 물리’

해결책: VLM, LLM, VGM의 3인 1조 팀플레이

Step 1: 물리적 시나리오 예측

Step 2: 무한 피드백 루프 (MM-CoT)

Step 3: 합격 도장 (Convergence)

결과: 수치로 증명된 ‘물리 지능’

Insight: 이것이 시사하는 바

AI 최신 기법의 모든 것을 배우고 싶으신가요?

기존 비디오 생성 모델(VGM)은 방대한 영상을 보며 학습했습니다. 하지만 그 과정에서 중력가속도, 마찰력, 관성 같은 물리 법칙을 명시적으로 배우진 않았습니다. 그저 픽셀의 패턴을 외웠을 뿐입니다.

현실: 물체가 떨어지면 가속도가 붙고, 바닥에 닿으면 튕기거나 깨집니다.
AI의 상상: 물체가 둥둥 떠다니다 바닥에 닿자마자 증발하거나 슬라임처럼 변합니다.

연구진은 이 간극을 메우기 위해 모델을 처음부터 다시 훈련시키는 무식한 방법 대신, “기존 모델에게 물리적으로 생각하는 법을 가이드하자”는 전략을 택했습니다.

해결책: VLM, LLM, VGM의 3인 1조 팀플레이

이 논문의 핵심은 ‘반복적 자기 정제(Iterative Self-Refinement)’입니다. 쉽게 말해, 한 번 만들고 끝내는 게 아니라 “이거 물리적으로 맞아?”라고 스스로 묻고 고치는 피드백 루프를 만든 것입니다.

이 과정에는 세 가지 역할(Role)이 필요합니다.

VLM (Gemini 2.5 Pro): 눈(Vision)을 가진 선생님. 영상의 물리적 오류를 지적합니다.
LLM (GPT-4o): 말(Language)을 잘하는 통역사. 선생님의 지적을 비디오 모델이 알아듣게 프롬프트로 바꿉니다.
VGM (MAGI-1): 그림을 그리는 화가. 실제 영상을 생성합니다.

이들이 어떻게 협업하는지 단계별로 살펴보겠습니다.

Step 1: 물리적 시나리오 예측

먼저 VLM에게 앞부분 영상을 보여주고 묻습니다. “이 다음에 물리적으로 어떤 일이 일어나야 자연스럽지?”

VLM은 “파란 블록이 보라색 블록을 쳐서 도미노처럼 쓰러져야 해”라고 판단합니다. LLM은 이를 받아 비디오 생성용 프롬프트로 깔끔하게 정리해 줍니다.

Step 2: 무한 피드백 루프 (MM-CoT)

비디오 모델이 1차 영상을 만듭니다. 당연히 처음엔 엉성합니다. 여기서 이 논문의 진짜 가치인 피드백 루프가 작동합니다.

감시 (VLM): “잠깐, 블록이 쓰러지는 속도가 너무 느려. 중력이 없는 것 같아.”
수정 (LLM): 이 피드백을 반영해 프롬프트를 수정합니다. “중력 가속도를 반영하여 더 빠르게 쓰러지도록…”
재생성 (VGM): 수정된 프롬프트로 다시 영상을 만듭니다.

이 과정을 반복하면 영상의 물리적 정확도는 점진적으로 향상됩니다.

Step 3: 합격 도장 (Convergence)

계속 고치다 보면 VLM이 보기에 “이제 물리적으로 그럴듯하네”라고 인정하는 지점이 옵니다. 더 이상 프롬프트 수정이 필요 없을 때, 최종 영상이 확정됩니다.

결과: 수치로 증명된 ‘물리 지능’

이 복잡한 과정을 거친 결과는 어땠을까요? de>PhyIQ라는 벤치마크 점수로 검증해 봤습니다.

기본 모델: 56.31점
제안된 방법(Ensemble): 62.38점

점수가 약 10% 올랐습니다. 수치보다 중요한 건, 유체(Fluid)나 고체(Solid) 역학뿐만 아니라 광학, 자기장 등 다양한 물리 영역에서 골고루 성능이 좋아졌다는 점입니다. 자석에 끌려가는 물체가 예전엔 순간 이동을 했다면, 이젠 가속도가 붙으며 ‘착’ 하고 달라붙는 식이죠.

Insight: 이것이 시사하는 바

이 논문은 단순히 영상 품질을 높였다는 것 이상의 의미를 가집니다.

시뮬레이터로의 진화: 비디오 AI가 엔터테인먼트를 넘어 자율주행 데이터 생성이나 로봇 학습용 시뮬레이터로 쓰일 가능성이 열렸습니다. ‘예쁜 영상’이 아니라 ‘정확한 영상’이 되기 때문입니다.
프롬프트 엔지니어링의 자동화: 사람이 일일이 “중력에 맞게 해줘”라고 입력할 필요가 없습니다. AI 에이전트끼리 대화하며 최적의 프롬프트를 찾아내는 ‘에이전트 워크플로우(Agentic Workflow)’가 비디오 생성의 표준이 될 것입니다.
모델 간 협업: 하나의 거대 모델(All-in-one)보다, 각 분야의 전문 모델(시각, 언어, 생성)이 팀을 이뤄 문제를 해결하는 방식이 효율적임을 증명했습니다.

우리는 지금 ‘그럴듯한 영상’의 시대를 지나 ‘올바른 영상’의 시대로 진입하고 있습니다.

아직은 초기 단계의 탐구지만, 머지않아 뉴턴도 고개를 끄덕일 만한 완벽한 물리 법칙의 AI 영상을 보게 될 겁니다.

여러분도 업무에 이 ‘피드백 루프’ 개념을 적용해 보세요. 결과물을 한 번에 끝내지 말고, 스스로(혹은 AI를 통해) 비평하고 수정하는 과정을 한 단계만 추가해도 퀄리티는 비약적으로 상승할 것입니다.

AI 비디오 생성, 왜 물리 법칙을 모를까? (Sora의 한계와 해결책)

핵심 문제: 화려한 영상 속 ‘가짜 물리’