한 디자이너가 태블릿에서 '모션 프롬프트' 기술을 사용하여 앵무새의 움직임 궤적을 지정하는 이미지
|

모션 프롬프트란? 구글 AI 비디오 생성의 ‘연출’ 가이드

모션 프롬프트란? 구글 AI 비디오 생성의 ‘연출’ 가이드

AI가 우리의 창의적인 ‘의도’를 이해하는 새로운 소통 방식이 등장했습니다. 바로 움직임 궤적으로 비디오를 제어하는 ‘모션 프롬프트’ 기술입니다.

한 디자이너가 태블릿에서 '모션 프롬프트' 기술을 사용하여 앵무새의 움직임 궤적을 지정하는 이미지

AI 비디오, 이제 ‘연출’이 가능해집니다: 구글 ‘모션 프롬프트’ 해설

AI로 비디오를 만들 때, 이런 답답함을 느끼신 적 없으신가요?

“우주비행사가 달에서 춤추는 영상”을 만들었는데, 그럴싸하긴 하지만 어딘가 엉성합니다. “조금만 더 왼쪽으로 움직였으면…” 하고 바라지만, AI에게 ‘조금만’이 어느 정도인지, ‘왼쪽’이 정확히 어떤 궤적인지 설명할 방법이 마땅치 않았습니다.

지금까지의 텍스트 프롬프트는 마치 택시 기사에게 “저쪽으로 빨리 가주세요”라고 외치는 것과 같았습니다. ‘무엇을’ 할지는 알려줄 수 있어도, ‘어떻게’ 가야 하는지에 대한 구체적인 경로(움직임)는 전적으로 AI의 해석에 맡겨야 했죠.

만약, 텍스트가 아닌 ‘움직임 경로’ 자체를 프롬프트로 쓸 수 있다면 어떨까요?

구글 딥마인드(Google DeepMind)와 여러 대학이 발표한 “모션 프롬프트(Motion Prompting)” 논문은 바로 이 문제를 정면으로 돌파합니다. 이 기술은 단순한 기능 개선이 아닙니다. AI가 우리의 창의적인 ‘의도’를 이해하는 새로운 소통 방식을 제시합니다.


1. ‘모션 프롬프트’란 정확히 무엇인가?

핵심 아이디어는 간단하면서도 강력합니다. 텍스트 대신 ‘움직임 궤적(Motion Trajectories)’을 사용해 비디오의 움직임을 제어하는 기술입니다.

마치 비디오 위에 투명한 종이를 대고 “이 앵무새 머리는 여기서 시작해서, 이 경로를 따라, 여기까지 움직여야 해”라고 점과 선으로 직접 그려주는 것과 같습니다.

이 방식의 세 가지 강점

  • 정확성: “왼쪽으로” 같은 모호한 지시가 아닌, (x, y) 좌표의 정확한 이동 경로를 따르기 때문에 AI가 ‘오해’할 여지가 없습니다.
  • 유연성: 몇 개의 점만 찍어 대략적인 방향(희소 궤적)을 지시할 수도, 물체 전체의 움직임을 빽빽하게(밀도 높은 궤적) 정의할 수도 있습니다.
  • 보편성: 특정 물체의 움직임, 카메라의 움직임, 심지어 바람에 날리는 머리카락 같은 물리 현상까지 모두 ‘궤적’이라는 동일한 언어로 표현할 수 있습니다.

2. (간단하게) 어떻게 작동하는가?

엔지니어가 아니더라도 이 원리를 알면 그 잠재력이 더 잘 보입니다.

연구팀은 기존의 비디오 생성 모델(Lumiere) 위에 ‘컨트롤넷(ControlNet)’이라는 특별한 보조 장치를 달았습니다. 컨트롤넷은 일종의 ‘가이드 레일’ 또는 ‘스텐실(stencil)’이라고 생각하면 쉽습니다. AI가 딴 길로 새지 않고 우리가 원하는 조건을 정확히 따르도록 붙잡아주는 역할이죠.

작동 방식

  1. 입력: 사용자는 (1)첫 번째 프레임(이미지), (2)텍스트 프롬프트(예: “정글 속 코끼리”), 그리고 (3)움직임을 정의하는 ‘모션 트랙(궤적)’을 제공합니다.
  2. 인코딩: 시스템은 이 모션 트랙(점들의 궤적)을 ‘움직임 지도’로 변환합니다.
  3. 생성: 컨트롤넷 어댑터가 이 ‘움직임 지도’를 입력받아, 비디오 모델이 텍스트와 첫 프레임에 충실하면서도 우리가 그린 ‘가이드 레일’을 정확히 따라가도록 유도합니다.

놀라운 점은 훈련 데이터에 없던 새로운 형태의 궤적(예: 나선형 움직임)에도 훌륭하게 반응한다는 것입니다.


3. 그래서, 이 기술로 무엇을 할 수 있는가?

이 기술이 단순한 ‘움직임’ 제어를 넘어, 비디오와 ‘상호작용’하는 수준의 제어력을 어떻게 보여주는지 5가지 핵심 기능으로 요약했습니다.

1) 정교한 객체 제어

가장 기본적이면서 강력한 기능입니다. 이미지 속 앵무새에 머리를 좌우로 돌리는 궤적을 적용하자, 앵무새가 자연스럽게 고개를 돕니다. 곰의 머리를 회전시키는 것도 가능합니다. 캐릭터 애니메이션이나 정적인 인물 사진에 생동감을 부여할 때 유용합니다.

2) 완벽한 카메라 제어 (깊이 활용)

이 부분이 정말 인상적입니다. 지금까지 AI 비디오에서 카메라 워크는 사실상 불가능의 영역이었습니다. 모션 프롬프트는 ‘깊이(Depth)’ 정보와 결합하여 이 문제를 해결합니다.

작동 방식:

  • AI가 먼저 이미지의 3D 구조(깊이)를 추측합니다.
  • 사용자가 ‘코끼리 주위를 원형으로 돌아줘’ 같은 카메라 궤도를 지정합니다.
  • 시스템은 이 궤도에 맞춰 배경(예: 숲, 바위)이 어떻게 움직여야 할지 자동으로 계산하여 수천 개의 ‘배경 모션 트랙’을 생성합니다.

결과: 협곡 사이를 날아오르거나 피사체 주위를 공전하는 등, 복잡한 카메라 워크가 완벽하게 구현됩니다.

3) 객체 + 카메라 동시 제어

두 가지를 합칠 수도 있습니다. 카메라가 왼쪽에서 오른쪽으로 이동하는(패닝) 동시에, 강아지가 고개를 들어 짖는 장면처럼 복잡한 연출이 가능해집니다.

4) 이미지와 ‘상호작용’하기

이 기능은 모션 프롬프트의 잠재력을 가장 잘 보여줍니다. 사용자의 마우스 드래그를 궤적으로 변환하여 이미지와 상호작용할 수 있습니다.

사례 1 (머리카락): 여성의 이미지에서 머리카락 부분을 마우스로 쓸어 올리는 궤적을 입력하자, 모델은 이 움직임을 ‘바람에 머리카락이 흩날리는’ 물리 현상으로 해석하여 자연스러운 영상을 만듭니다.

사례 2 (모래): 모래사장 이미지를 마우스로 휘젓자, 모래가 실제로 파헤쳐지고 흩어지는 듯한 복잡한 동역학을 보여줍니다.

이는 모델이 단순히 궤적을 따르는 것을 넘어, ‘머리카락’, ‘모래’ 같은 객체가 특정 힘에 어떻게 반응해야 하는지에 대한 ‘물리적 이해’ 또는 ‘세상에 대한 지식’을 갖추기 시작했다는 의미입니다.

5) 모션 전이 (Motion Transfer)

‘움직임’만 따로 추출해 다른 이미지에 적용할 수도 있습니다.

사례 1 (인물 → 동물): 사람이 고개를 돌리는 영상에서 궤적을 추출해 원숭이 이미지에 적용하자, 원숭이가 사람처럼 고개를 돕니다.

사례 2 (추상 효과): 원숭이가 무언가를 씹는 영상의 궤적을 숲 항공사진에 적용하자, 숲의 나무들이 마치 씹는 것처럼 유기적으로 움직이는 추상적인 효과를 만들어냅니다.

‘움직임’이라는 개념을 소스와 타겟으로부터 완전히 분리할 수 있게 된 것입니다.


4. 한계와 가능성: AI의 속을 들여다보는 도구

연구팀은 이 기술의 한계를 솔직하게 인정하며, 이 ‘실패’ 사례들이 오히려 모델을 탐구하는 중요한 단서가 된다고 말합니다.

실패 사례 1 (고정된 뿔)

소의 머리를 움직이도록 궤적을 설정했으나, 모델이 ‘뿔’을 배경의 일부로 잘못 인식했습니다. 그 결과, 뿔은 가만히 있고 얼굴만 엿가락처럼 부자연스럽게 늘어나는 현상이 발생했습니다.

실패 사례 2 (체스 말)

체스 말을 드래그하여 다른 칸으로 옮기도록 궤적을 입력하자, 말이 이동하는 대신 원래 자리에 새로운 말이 ‘스스로 생겨나는(복제되는)’ 오류를 보였습니다.

이러한 실패는 모델이 아직 ‘객체 영속성(Object Permanence, 물체가 시야에서 사라져도 계속 존재한다는 개념)’이나 복잡한 3D 구조를 완벽하게 이해하지 못했음을 보여줍니다.

하지만 이는 동시에 ‘모션 프롬프트’가 AI 비디오 모델의 물리적 이해도를 테스트하는 강력한 ‘탐침(Probe)’ 역할을 할 수 있음을 의미합니다. 우리는 AI에게 “만약 이 머리카락을 이렇게 당기면 어떻게 될까?”라고 질문하고, 그 대답(생성된 영상)을 통해 AI가 세상을 얼마나 잘 이해하고 있는지 확인할 수 있습니다.


5. 결론: 단순한 ‘제어’를 넘어 ‘대화’로

모션 프롬프트 기술은 AI 비디오 생성을 ‘뽑기’의 영역에서 ‘연출’의 영역으로 끌어올렸습니다. 텍스트라는 모호한 언어 대신, ‘움직임’이라는 직관적이고 보편적인 언어로 AI와 소통할 수 있게 된 것입니다.

영화 사전 시각화, 게임 개발, 직관적인 비디오 편집 등 활용 분야는 무궁무진합니다. 물론 아직 연구 단계이며 비디오 생성에 12분가량 소요되는 등 한계는 존재합니다.

하지만 방향성은 분명합니다. 미래의 크리에이터들은 AI에게 명령을 내리는 ‘감독’을 넘어, AI와 함께 춤추며 움직임을 만들어내는 ‘안무가’가 될 것입니다.

여러분이라면 이 강력한 ‘움직임의 붓’으로 어떤 세상을 그려보고 싶으신가요?

AI 프롬프트 활용에 대해 더 알고 싶으신가요?
ProB AI 연구소에서 제공하는 최신 트렌드와 기법들을 확인하세요.

더 알아보기

Similar Posts