Visual Chain-of-Thought(VCOT): AI가 상상으로 논리를 채우는 법
AI도 ‘상상’을 할까요?
LLM(거대언어모델)에게 복잡한 문제를 던질 때, 흔히 “단계별로 생각해서 답해줘(Think step-by-step)”라는 프롬프트를 입력하곤 합니다. 이른바 CoT(Chain-of-Thought) 기법이죠. 이 한 문장이 AI의 추론 능력을 비약적으로 높인 것은 사실입니다.
하지만 여기엔 맹점이 하나 있습니다. 텍스트에는 ‘말하지 않아도 알아요’라는 영역, 즉 논리적 공백(Logical Gaps)이 존재한다는 점입니다. 오늘은 텍스트만으로는 채울 수 없는 이 간극을 ‘이미지’로 메우는 기술, Visual Chain-of-Thought (VCOT)에 대해 이야기해 볼까 합니다.
텍스트가 놓치는 것
소설을 읽을 때를 생각해 봅시다. “철수가 자전거를 타고 나갔다”라는 문장 뒤에 “가족들이 병원 응급실에 모여 있다”라는 문장이 나온다면, 여러분은 어떤 상황을 떠올리시나요? 아마도 십중팔구 ‘철수가 자전거를 타다 사고가 났구나’라고 자연스럽게 연결할 겁니다.
하지만 텍스트만 학습한 AI에게 이 상황은 다릅니다. 이 ‘보이지 않는 사고 장면’을 상상하지 못하기 때문에, “자전거를 타면 가족이 병원에 모인다”라는 엉뚱한 인과관계를 도출하곤 하죠. 이것이 바로 연구진이 지적한 논리적 공백입니다.
해결책: 3단계 프로세스
UCSB 연구진이 제안한 VCOT는 텍스트 사이에 ‘이미지’를 생성하여 논리의 징검다리를 놓습니다. 단순히 글을 쓰는 게 아니라, 장면을 그려가며 추론하는 것이죠. 핵심은 다음 3단계 파이프라인에 있습니다.
태스크 통합
먼저 텍스트 데이터를 이미지와 짝을 짓습니다. 텍스트만 있는 경우라도 Stable Diffusion 등을 활용해 상황에 맞는 이미지를 생성하고, CLIP 모델로 가장 적합한 컷을 골라냅니다. 텍스트를 시각적 정보로 변환하는 기초 작업입니다.
다중 초점 포비에이션
이 용어가 조금 어렵게 들릴 수 있는데, 쉽게 말해 ‘문맥의 앵커(Anchor) 박기’입니다. AI가 이미지를 생성하다가 뜬금없이 엉뚱한 그림을 그리지 않도록, 전체 이야기의 핵심(주인공, 배경 등)을 꽉 잡아두는 것이죠. “캠핑 가는 이야기”라면 중간에 갑자기 “우주선”이 나오지 않게 전체 초점을 유지합니다.
재귀적 인필링
이제 시작점과 끝점 사이의 빈칸을 채웁니다. 앞뒤 맥락에 맞는 텍스트와 이미지를 생성하여 논리적 공백이 사라질 때까지 이 과정을 반복(Recursive)합니다. 이때 기준은 두 가지입니다. 일관성(Consistency)이 있는가? 그리고 참신함(Novelty)이 있는가?
결과: 생생한 시나리오
실제 효과는 어땠을까요? ‘시각효과(VFX) 아티스트가 되는 법’에 대한 조언을 예로 들어보겠습니다.
- 기존 CoT: “주니어 아티스트로 시작해서… 경험을 쌓아라.” (너무 당연하고 밋밋한 조언)
- VCOT: “주니어 시절 포트폴리오를 쌓아 3D 아티스트나 VFX 슈퍼바이저로 승진하는 경로를 밟아라.” (구체적인 직무와 승진 경로 제시)
VCOT는 관련된 작업 환경 이미지를 생성하면서 “아, 이 직업은 이런 단계를 거치는구나”라는 맥락을 더 풍부하게 이해했습니다. 정량적 평가에서도 일관성과 참신함 모두 기존 모델을 압도했습니다. AI가 만든 ‘상상’이 터무니없는 망상이 아니라, 논리적인 추론임을 입증한 셈입니다.
마치며
VCOT가 흥미로운 이유는 단순히 성능 때문만이 아닙니다. AI의 생각 과정을 ‘눈으로 볼 수 있게(Visualize)’ 되었다는 점이 중요합니다. 기존에는 AI가 왜 저런 답을 냈는지 알 길이 없는 ‘블랙박스’였다면, 이제는 “나는 이 텍스트 사이에 이런 장면을 상상했어”라고 중간 과정을 보여줍니다.
“백문이 불여일견(A picture is worth a thousand words)”이라는 말, AI에게도 예외는 아니었습니다.
텍스트라는 1차원적 정보에 시각이라는 차원을 더했을 때, AI의 논리는 비로소 인간의 상식에 한 걸음 더 다가섭니다. 앞으로 여러분의 업무나 연구에서 AI가 맥락을 자꾸 놓친다면 한 번쯤 의심해 보세요. “이 녀석에게 텍스트만 주고, 장면을 상상할 기회는 주지 않은 게 아닐까?” 하고 말이죠.
