AI가 100% 확신할 때 더 위험한 이유? 신종 환각 'CHOKE' 분석

정의: 모델이 평소에는 잘 맞히던 질문인데, 프롬프트가 아주 미묘하게 바뀌면 갑자기 높은 확신을 가지고 오답을 내뱉는 현상입니다.
비유: 시험 범위를 통째로 암기한 우등생이, 문제가 살짝 꼬여 나오자 엉뚱한 답을 적으면서도 “이건 100% 정답이야!”라고 우기는 상황과 같습니다.

기존 환각은 “모르는 것을 아는 척”하는 문제라면,
CHOKE는 “알고 있으면서도 확신에 찬 오답”을 내놓는 전혀 다른 차원의 위험입니다.

2. 수치로 증명된 AI의 ‘근거 없는 자신감’

연구진이 Llama-3.1, Mistral 등 주요 모델을 실험한 결과는 꽤 충격적입니다.

더 큰 문제는 대화 능력이 좋은 모델일수록 오답에 더 높은 확률을 부여한다는 점입니다. 의료나 법률처럼 AI의 확신이 의사결정에 직결되는 분야에서는 치명적인 위험 요소가 됩니다.

우리는 보통 모델이 특정 단어를 선택할 확률(Token Probability)이 높으면 “정확하다”고 믿습니다. 하지만 CHOKE 현상에서 모델은 오답에 0.92 이상의 압도적인 확률을 할당합니다.

연구진은 이를 수학적으로 분석하기 위해 아래와 같은 임계값 T* 설정 방정식을 제안했습니다.

T* = arg min Σᵢ 𝟙[C(Hᵢ) > t] + Σⱼ 𝟙[C(Fⱼ) < t]

결론은 심플합니다. 기존의 확신 측정 방식으로는 ‘확신에 찬 정답’과 ‘확신에 찬 오답’을 구분할 수 없다는 것이 증명되었습니다.

이 거짓 확신의 늪에서 벗어나기 위해 연구팀은 두 가지 도구를 제시했습니다.

CHOKE-Score: 시스템이 틀렸으면서도 확신하는 사례만 골라내어 안정성을 평가하는 지표입니다.
CHOKE-tuned Probe: 모델의 내부 연산 과정(Residual Stream)을 실시간 감시합니다. 겉으로는 오답을 말해도, 모델의 ‘내부 레이어’가 정답 신호를 보내고 있다면 이를 포착해 차단합니다.

CHOKE-tuned Probe는 AI의 ‘말’이 아닌 ‘생각’을 직접 읽어내는 기술입니다. 겉과 속이 다른 AI를 잡아내는 핵심 열쇠입니다.

논문의 결과를 우리 일상에 적용하면 다음 세 가지만 기억하면 됩니다.

AI는 훌륭한 도구이지만, 정답을 알고 있는 순간조차 우리를 오도할 수 있습니다. 기술의 완성도를 높이는 것은 개발자의 몫이지만, 그 기술을 비판적으로 수용하는 것은 사용자의 몫입니다.

AI의 확신이 가장 높을 때, 당신의 의심은 가장 날카로워져야 합니다.