비전 언어 모델(LVLM) 성능 최적화: 토큰 비용 줄이는 '룩백(Lookback)' 기술

비전 언어 모델(LVLM) 성능 최적화: 토큰 비용 줄이는 ‘룩백(Lookback)’ 기술

생각만 많은 AI는 실수를 합니다: ‘시각적 추론’의 역설과 해법

ChatGPT 이후 우리는 “AI에게 생각할 시간(CoT, Chain-of-Thought)을 주면 더 똑똑해진다”는 명제를 거의 진리처럼 받아들였습니다. 복잡한 수학 문제나 코딩에서 단계적 추론이 정답률을 획기적으로 높여주었기 때문이죠.

그런데 이미지를 함께 봐야 하는 대형 비전-언어 모델(LVLM)에서도 이 법칙이 통할까요?

최근 발표된 연구 “When to Think and When to Look”은 우리의 통념을 정면으로 반박합니다. 오늘은 최신 모델인 Qwen3-VL과 InternVL3.5를 통해 밝혀진 ‘생각의 함정’과 이를 해결하는 ‘불확실성 기반 룩백(Uncertainty-Guided Lookback)’ 기술을 해설해 드리겠습니다.

1. 생각의 함정: 길고 틀린 답변 (Long-Wrong)

Table of Contents 숨기기

1. 생각의 함정: 길고 틀린 답변 (Long-Wrong)

기존 통념

실제 현상

2. 해답은 “다시 보기(Lookback)”에 있다

3. 핵심 기술: 언제 쳐다봐야 하는가? (Uncertainty-Guided Lookback)

감지 (Detection)

개입 (Intervention)

수정 (Correction)

4. 결과: 더 정확하고, 더 저렴하게 (Token Economy)

정확도 상승

비용 절감

요약: 무작정 달리지 말고, 지도를 확인하세요

AI 최신 기법의 모든 것을 배우고 싶으신가요?

우리는 흔히 “AI가 길게 추론할수록 결과가 정교할 것”이라고 기대합니다. 하지만 MMMU 벤치마크 테스트 결과는 충격적이었습니다.

기존 통념

텍스트를 많이 생성하며 깊게 고민하면 정답에 가까워질 것이다.

실제 현상

생각이 길어지자 오히려 옆에 있는 이미지를 무시하고, 자기 논리에 갇혀 텍스트만으로 소설을 쓰는 ‘환각(Hallucination)‘에 빠졌습니다.

연구진은 이를 “Long-Wrong(길고 틀린)” 궤적이라고 불렀습니다. 마치 오픈북 테스트를 보는데, 정답이 있는 교과서(이미지)는 쳐다보지도 않고 머릿속 상상만으로 답안지를 채우는 격입니다. 특히 단순한 인식 문제에서 이런 ‘과도한 생각’은 오히려 독이 되었습니다.

2. 해답은 “다시 보기(Lookback)”에 있다

연구진은 정답을 잘 맞히는 케이스를 역추적했습니다. 그 결과, 성공적인 추론 과정에는 공통적인 특징이 있었습니다.

“잠깐, 이미지를 다시 보니(Lookback)…”

모델이 스스로 이미지를 재확인하는 과정이 포함되어 있었던 것이죠. 생각해보면 우리 인간도 비슷합니다. 문제를 풀다가 헷갈리면(불확실하면) 멈추고 지문이나 그림을 다시 봅니다. 반면, 기존 AI는 헷갈리는 순간에도 멈추지 않고 텍스트 생성(말하기)만 고집했던 것이 패착이었습니다.

3. 핵심 기술: 언제 쳐다봐야 하는가? (Uncertainty-Guided Lookback)

이 기술의 핵심은 모델을 처음부터 다시 훈련시키는 게 아닙니다. 추론 과정에서 ‘언제 이미지를 다시 볼지’ 결정하는 메커니즘을 심는 것입니다.

감지 (Detection)

모델이 답변을 생성하다가 확신이 떨어지는 순간(Uncertainty Signal)을 포착합니다.

개입 (Intervention)

시스템이 강제로 “잠깐, 이미지를 다시 확인해 봐”라는 식의 프롬프트를 주입합니다.

수정 (Correction)

모델은 하던 생각을 멈추고 이미지를 다시 참조(Grounding)하여 궤도를 수정합니다.

모든 단계에서 이미지를 보면 비효율적이지만, 이 방식은 ‘모델이 헷갈려 할 때만‘ 선별적으로 개입한다는 점에서 매우 스마트합니다.

4. 결과: 더 정확하고, 더 저렴하게 (Token Economy)

이 전략의 성과는 수치로 명확히 증명되었습니다.

정확도 상승

MMMU, MathVista 등 주요 벤치마크에서 일관된 성능 향상을 보였습니다. 특히 기존에 ‘생각(Thinking)’만 하다가 틀리던 문제들을 잡아냈습니다.

비용 절감

더 놀라운 건 효율성입니다. 불필요한 장광설(Long-Wrong)을 차단하고 핵심만 짚어주니, 토큰 사용량이 35~45%나 감소했습니다.

4B 모델 기준으로 토큰을 절반 가까이 아끼면서도 정답률은 오히려 59.3%에서 61.6%로 올랐습니다. 성능은 높이고 비용은 낮추는, 그야말로 ‘가성비‘ 최고의 전략입니다.

요약: 무작정 달리지 말고, 지도를 확인하세요

이번 연구는 “Thinking more is not always better (더 많이 생각하는 게 항상 능사는 아니다)”라는 점을 시사합니다.

쉬운 문제는 직관적으로 풀고, 어려울 때만 이미지를 다시 보는 유연함이 필요합니다. 맹목적인 ‘Chain-of-Thought’보다, 멈춰 서서 대상을 다시 바라보는 ‘Lookback’이 훨씬 강력한 해결책이 될 수 있습니다. 이는 AI뿐만 아니라, 복잡한 문제를 마주한 우리에게도 유효한 통찰 아닐까요?

비전 언어 모델(LVLM) 성능 최적화: 토큰 비용 줄이는 ‘룩백(Lookback)’ 기술