AI가 100% 확신할 때 더 위험한 이유? 신종 환각 ‘CHOKE’ 분석
AI가 “확률상 이 답이 확실합니다”라며 90% 이상의 자신감을 보일 때, 우리는 보통 의심 없이 그 결과를 신뢰합니다. 하지만 AI가 정답을 뻔히 알고 있으면서도 당신을 속이기 위해 확신에 찬 거짓말을 하고 있다면 어떨까요?
테크니온(Technion) 공대와 옥스퍼드 대학 연구진이 발표한 최신 논문은 우리가 가진 ‘AI 확신’에 대한 환상을 깨뜨립니다. 오늘은 이들이 발견한 새로운 유형의 환각 현상, CHOKE에 대해 핵심만 짚어보겠습니다.
1. CHOKE: 아는 문제인데 틀리는 ‘우등생의 실수’
일반적인 환각(Hallucination)은 AI가 지식이 없어서 발생합니다. 모르는 걸 아는 척하다 보니 거짓말이 나오는 거죠. 하지만 CHOKE(Certain Hallucinations Overriding Known Evidence)는 결이 다릅니다.
- 정의: 모델이 평소에는 잘 맞히던 질문인데, 프롬프트가 아주 미묘하게 바뀌면 갑자기 높은 확신을 가지고 오답을 내뱉는 현상입니다.
- 비유: 시험 범위를 통째로 암기한 우등생이, 문제가 살짝 꼬여 나오자 엉뚱한 답을 적으면서도 “이건 100% 정답이야!”라고 우기는 상황과 같습니다.
기존 환각은 “모르는 것을 아는 척”하는 문제라면,
CHOKE는 “알고 있으면서도 확신에 찬 오답”을 내놓는 전혀 다른 차원의 위험입니다.
2. 수치로 증명된 AI의 ‘근거 없는 자신감’
연구진이 Llama-3.1, Mistral 등 주요 모델을 실험한 결과는 꽤 충격적입니다.
| 모델명 | CHOKE 발생률 (%) | 비고 |
|---|---|---|
| Mistral-7B | 42.1% | 가장 높은 수치 기록 |
| Gemma-2-9B | 20.1% | — |
| Llama-3.1-8B | 17.2% | — |
더 큰 문제는 대화 능력이 좋은 모델일수록 오답에 더 높은 확률을 부여한다는 점입니다. 의료나 법률처럼 AI의 확신이 의사결정에 직결되는 분야에서는 치명적인 위험 요소가 됩니다.
3. 왜 우리는 그동안 속았을까?
우리는 보통 모델이 특정 단어를 선택할 확률(Token Probability)이 높으면 “정확하다”고 믿습니다. 하지만 CHOKE 현상에서 모델은 오답에 0.92 이상의 압도적인 확률을 할당합니다.
연구진은 이를 수학적으로 분석하기 위해 아래와 같은 임계값 T* 설정 방정식을 제안했습니다.
결론은 심플합니다. 기존의 확신 측정 방식으로는 ‘확신에 찬 정답’과 ‘확신에 찬 오답’을 구분할 수 없다는 것이 증명되었습니다.
4. 해결책: ‘속마음’을 들여다보는 기술
이 거짓 확신의 늪에서 벗어나기 위해 연구팀은 두 가지 도구를 제시했습니다.
- CHOKE-Score: 시스템이 틀렸으면서도 확신하는 사례만 골라내어 안정성을 평가하는 지표입니다.
- CHOKE-tuned Probe: 모델의 내부 연산 과정(Residual Stream)을 실시간 감시합니다. 겉으로는 오답을 말해도, 모델의 ‘내부 레이어’가 정답 신호를 보내고 있다면 이를 포착해 차단합니다.
CHOKE-tuned Probe는 AI의 ‘말’이 아닌 ‘생각’을 직접 읽어내는 기술입니다. 겉과 속이 다른 AI를 잡아내는 핵심 열쇠입니다.
💡 실무자를 위한 AI 활용 가이드
논문의 결과를 우리 일상에 적용하면 다음 세 가지만 기억하면 됩니다.
단호한 짧은 대답을 경계하세요
- 잘못된 예: “답은 A입니다.” — 확신에 찬 짧은 답변은 CHOKE일 확률이 높습니다.
- 올바른 예: 답변의 근거와 과정을 함께 요구하여 논리적 비약을 확인하세요.
프롬프트 스트레스 테스트
같은 질문을 3~4가지 방식으로 바꿔서 물어보세요. 질문의 말투나 순서에 따라 답이 바뀐다면 AI가 CHOKE 상태에 빠졌을 가능성이 큽니다.
99%는 ‘정답률’이 아니라 ‘출력 확률’입니다
AI가 제시하는 확신 수치는 “이 단어가 정답이다”라는 보증서가 아니라, “다음에 이 단어를 뱉을 확률이 높다”는 계산 결과일 뿐입니다.
마치며
AI는 훌륭한 도구이지만, 정답을 알고 있는 순간조차 우리를 오도할 수 있습니다. 기술의 완성도를 높이는 것은 개발자의 몫이지만, 그 기술을 비판적으로 수용하는 것은 사용자의 몫입니다.
AI의 확신이 가장 높을 때, 당신의 의심은 가장 날카로워져야 합니다.
