촬영 스튜디오에서 전문가들이 거대한 스크린에 비치는 AI 영상 퀄리티를 평가하며, AI 카메라 워크 프롬프팅의 어려움을 고민하고 있습니다.
|

AI 영상 프롬프트, ‘전문 용어’가 정답이 아니었던 이유 (최신 연구)

AI 영상 프롬프트, ‘전문 용어’가 정답이 아니었던 이유 (최신 연구)

🤖 AI 비디오 생성 툴의 시대, 카메라 워크를 완벽하게 제어하는 진정한 방법

AI 영상의 카메라 워크 문제

AI 비디오 생성 툴(Sora, Runway, Pika 등)의 시대입니다. 누구나 손쉽게 영상을 만들 수 있게 되었지만, 대부분의 사용자가 공통으로 좌절하는 지점이 있습니다. 바로 카메라 워크입니다.

“웅장한 트래킹 샷”을 주문했지만 멀미 나는 핸드헬드 영상이 나오거나, “부드러운 줌 아웃”을 요청했지만 뚝뚝 끊기는 결과물이 나오는 식입니다.

이 문제를 해결하기 위해 많은 이들이 영화 촬영 용어를 공부합니다. “달리 인(Dolly in)과 줌 인(Zoom in)은 다르다!”, “아크 샷(Arc shot)을 써야 해!”처럼 말이죠.

하지만 만약, 이 노력이 AI 모델에게는 큰 의미가 없었다면 어떨까요?

최신 연구가 밝힌 놀라운 사실

2025년 9월 IEEE Access 저널에 발표된 한 연구 “프롬프트 언어 구조가 AI 생성 비디오의 카메라 움직임 인식 및 사용 의도에 미치는 영향”은 이 질문에 대한 흥미로운 답을 제시합니다.

결론부터 말씀드리면, 전문 용어를 사용한 프롬프트와 자연스러운 설명을 사용한 프롬프트가 최종 결과물에 미치는 영향에는 통계적으로 유의미한 차이가 없었습니다.

핵심 발견: AI는 당신의 ‘전문성’에 관심이 없다

그렇다면 도대체 무엇이 “좋은” AI 영상을 만드는 것일까요? 이 연구가 밝혀낸 진짜 핵심 요소들을 정리해 드립니다.

실험 설계: “전문 용어” vs “자연어”

연구팀(Jun Liu와 Yue Sun)은 이 논쟁을 확인하기 위해 정교한 실험을 설계했습니다. 이들은 S-O-R(자극-유기체-반응) 이론, 즉 프롬프트(자극)가 사용자의 인식(유기체)을 거쳐 사용 의도(반응)에 어떻게 영향을 미치는지 분석했습니다.

두 가지 유형의 프롬프트

용어 중심 프롬프트 (Terminology-Driven)

  • 예: “Dolly in shot.”
  • 예: “Tilt up shot.”
  • 예: “Tracking shot.”

맥락 가이드 프롬프트 (Context-Guided)

  • 예: “The camera slowly moves forward.”
  • 예: “The camera slowly tilts upward.”
  • 예: “The camera slowly follows behind the character.”

이들은 Runway Gen-3 모델을 사용해, 388명의 참가자에게 10가지 다른 카메라 움직임을 가진 20개의 비디오 샘플을 보여주고 그들의 인식을 측정했습니다.

충격적인 결과

대부분의 예상과 달리, 참가자들은 두 유형의 프롬프트로 생성된 비디오 간의 차이를 거의 인지하지 못했습니다.

시각적 일관성, 몰입감, 자연스러움, 전문성, 신뢰도 등 모든 인식 차원에서 통계적으로 유의미한 차이가 발견되지 않은 것입니다.

즉, “Tracking shot”이라고 쓰든 “카메라가 전술 장교를 천천히 따라갑니다”라고 쓰든, 최종 결과물에 대한 사용자의 평가는 동일했습니다.

왜 이런 결과가 나왔을까?

연구진은 이 이유를 두 가지로 추측합니다.

  • 기술적 한계: 현재 AI 모델(Runway Gen-3 포함)이 아직 두 언어의 미묘한 차이를 해석해 결과물에 반영할 만큼 정교하지 않을 수 있습니다.
  • 실험 한계: 실험 영상이 5~10초로 짧아 참가자들이 차이를 알아채기 어려웠을 수 있습니다.

이유가 무엇이든, 이 연구는 우리가 전문 용어를 외우는 동안 AI는 완전히 다른 것을 기다리고 있었을지 모른다는 중요한 시사점을 줍니다.

진짜 차이를 만드는 5가지 핵심 요인

이 연구의 진짜 가치는 “무엇이 효과가 없었나”가 아니라, “무엇이 결정적으로 효과가 있었나”를 밝혔다는 데 있습니다.

프롬프트 구조(자극, S)가 사용자 인식(유기체, O)에 직접적인 영향을 주진 못했지만, 사용자의 인식(O)은 사용 의도(반응, R)에 강력한 영향을 미쳤습니다.

쉽게 말해, 참가자들이 일단 “이 영상 괜찮네?”라고 인식하게 만들면, 그 영상을 만든 툴을 “앞으로도 계속 쓰고 싶다”고 반응했다는 것입니다.

사용자의 긍정적 인식을 이끌어낸 5가지 핵심 요인

🥇 1. 인지된 전문성 (Perceived Professionalism) — β=0.281

가장 강력한 예측 변수였습니다. 사용자는 AI가 만든 결과물이 “전문가 수준의 제작 품질”을 보여줄 때 가장 크게 반응했습니다. 이는 카메라 움직임이 정밀하고 제어가 잘 되어 “아마추어가 아닌 전문가가 만든 것 같다”는 느낌을 주는 것을 의미합니다.

🥈 2. 인지된 신뢰 (Perceived Trust) — β=0.266

AI 시스템이 “일관성 있고 신뢰할 수 있는” 고품질 카메라 움직임을 생성할 수 있다는 믿음입니다. “내가 수동으로 개입하지 않아도, 이 시스템이 알아서 잘 제어해 줄 거야”라는 믿음이며, 뽑기처럼 결과물이 들쭉날쭉하면 사용자는 금방 지치게 됩니다.

🥉 3. 시각적 일관성 (Visual Coherence) — β=0.195

영상이 재생되는 동안 카메라 움직임이 뚝뚝 끊기거나(stuttering) 갑자기 튀지 않고(abrupt transitions) 부드럽고 자연스럽게 이어지는 것을 의미합니다. 아무리 화려한 카메라 워크도 뚝뚝 끊기면 사용자의 몰입을 방해하고 ‘가짜’처럼 보이게 만듭니다.

4. 현실감 및 자연스러움 (Realism and Naturalness) — β=0.177

AI가 만든 카메라 움직임이 우리가 실제 물리 세계에서 기대하는 ‘물리 법칙’을 따라야 한다는 것입니다. 카메라의 속도와 리듬이 ‘자연스러운 시청 경험’과 일치하고, 중력을 무시하거나 비현실적인 비율로 움직이지 않아야 합니다.

5. 몰입감 (Immersion) — β=0.159

사용자가 카메라의 움직임을 통해 “마치 내가 그 장면에 들어가 있는 듯한” 느낌(presence)을 받는 것입니다. 부드럽고 자연스러운 카메라 움직임이 사용자를 장면에 몰입하게 만들고 감정적인 공감을 불러일으킵니다. (연구에서는 영상이 짧아 영향력이 가장 약했지만, 긴 내러티브에서는 결정적일 수 있습니다.)

실전 적용: 인식 중심 프롬프팅 작성법

이 연구는 우리에게 “무엇을(What)” 말할지가 아니라, “어떻게(How)” 보이길 원하는지 설명하라고 말합니다.

용어 중심의 프롬프팅에서 벗어나, 위에서 언급된 5가지 핵심 인식을 직접적으로 지시하는 인식 중심 프롬프팅(Perception-Driven Prompting)으로 전환해야 합니다.

인식 중심 프롬프팅 예시

프롬프트 변환의 핵심

차이가 보이시나요?

왼쪽의 프롬프트는 AI에게 ‘명령’합니다. 하지만 AI가 그 명령을 어떻게 해석할지는 모릅니다.

오른쪽의 프롬프트는 AI에게 ‘결과물에 대한 인식’을 지시합니다. “부드럽고” (시각적 일관성), “전문가처럼” (전문성), “현실감 있게” (현실감), “몰입할 수 있도록” (몰입감), “일관된 속도로” (신뢰성) 같은 단어들이 바로 이 연구가 밝혀낸 5가지 핵심 요소를 직접 공략하는 키워드입니다.

결론: AI는 조수가 아니라, 감독이다

이 2025년 연구는 AI 비디오 생성에 대한 우리의 접근법을 근본적으로 바꿔야 함을 시사합니다.

우리는 AI를 “Dolly in!”이라고 소리치면 그대로 따르는 조수처럼 대해서는 안 됩니다. 대신, 우리가 원하는 ‘감정’과 ‘인식’을 정확히 설명해야 하는 베테랑 ‘촬영 감독’처럼 대해야 합니다.

지금부터 해야 할 일

지금까지 전문 용어를 외우느라 고생하셨나요? 이제 그 노력을 “어떻게 보이고 싶은지”를 묘사하는 데 사용해 보세요. “전문적으로 보이게”, “현실의 물리 법칙을 따르는 것처럼”, “관객이 숨죽이고 몰입할 수 있도록”, “매우 부드럽고 안정적으로” 같은 인식의 언어를 사용해 보세요.

AI는 당신의 전문 용어 지식이 아니라, 당신의 ‘연출력’을 기다리고 있습니다.

Similar Posts