AI의 ‘위험한 거짓말’을 잡는 ‘과정 기반 감독’
챗GPT 같은 대규모 언어 모델(LLM)이 똑똑한 건 다들 아실 겁니다. 하지만 여전히 우리를 불안하게 만드는 고질병이 하나 있죠. 바로 ‘환각(Hallucination)’입니다.
특히 수학 문제나 코딩처럼 논리가 생명인 분야에서, AI는 그럴듯한 오답을 내놓고 뻔뻔하게 우기곤 합니다. 답은 틀렸는데 설명은 청산유수니 속기 딱 십상이죠.
이 문제를 잡기 위해 OpenAI가 “Let’s Verify Step by Step”이라는 흥미로운 연구를 내놓았습니다. 핵심은 간단합니다. “결과만 보지 말고, 과정을 보자”는 겁니다. 이걸 전문 용어로 ‘과정 기반 감독(Process Supervision)’이라고 합니다.
이게 왜 중요한지, 왜 혁신적인지 뜯어보겠습니다.
결과만 보는 선생님 vs. 풀이를 보는 선생님
우리가 지금까지 AI를 가르친 방식과 OpenAI가 제안한 방식의 차이는 명확합니다. 학창 시절 수학 시험을 떠올려보면 이해가 빠릅니다.
기존 방식 (결과 기반 감독, ORM)
채점자가 답안지만 확인합니다. 풀이 과정이 엉망이어도, 찍어서 맞히면 동그라미(O)를 칩니다.
문제점: AI는 ‘논리’를 배우는 게 아니라, ‘어떻게든 정답처럼 보이는 답을 내는 요령’을 배웁니다. 소 뒷걸음질 치다 쥐 잡는 격이죠. 이걸 ‘기만적 행동’이라고 합니다.
새로운 방식 (과정 기반 감독, PRM)
깐깐한 과외 선생님이 옆에 붙습니다. 답이 맞았느냐는 나중 문제고, 풀이 과정의 모든 단계(Step)를 하나하나 검사합니다.
장점: 논리가 꼬이는 순간 바로 지적합니다. AI는 “아, 답만 맞으면 되는 게 아니라 논리가 맞아야 하는구나”를 깨닫습니다.
데이터가 증명한 ‘과정’의 힘
“그렇게 깐깐하게 굴면 성능이 떨어지는 거 아냐?”라고 생각할 수 있습니다. 하지만 결과는 정반대였습니다. OpenAI가 난이도 높기로 소문난 MATH 데이터셋으로 테스트해 봤습니다.
| 모델 방식 | 성능 (정확도) | 특징 |
|---|---|---|
| 결과 중심 (ORM) | 72.4% | 답만 맞으면 장땡 |
| 과정 중심 (PRM) | 78.2% | 풀이 과정 검증 |
무려 6% 가까이 차이가 납니다. 더 놀라운 건 효율성입니다. ‘능동 학습(Active Learning)’과 결합했더니, 사람의 손길(피드백)이 훨씬 덜 들어가도 똑똑한 AI가 만들어졌습니다. 효율이 2.6배나 올랐다는 건, 적은 비용으로 더 믿을 만한 AI를 만들 수 있다는 뜻입니다.
착한 AI가 공부도 잘한다
보통 AI 업계에는 ‘정렬 세금(Alignment Tax)’이라는 슬픈 용어가 있습니다. AI를 안전하고 윤리적으로 만들려고 제약을 걸면, 모델의 지능이나 성능이 떨어진다는 속설이죠.
그런데 이번 연구는 이 통념을 뒤집었습니다. 과정 기반 감독은 오히려 ‘음의 정렬 세금(Negative Alignment Tax)’을 보여줍니다. 쉽게 말해, AI를 안전하고 논리적으로 가르쳤더니 성능까지 좋아졌다는 겁니다. 세금을 낸 게 아니라 보너스를 받은 셈이죠.
예를 들어 \(x/(3x-7) = 2/5\) 같은 방정식을 풀 때, 중간 단계를 검증하면 AI가 헛소리를 할 확률이 확 줄어듭니다. 안전한 AI가 일도 더 잘한다는 사실, 꽤 매력적이지 않나요?
개발자를 위한 선물 ‘PRM800K’
OpenAI는 이 연구에 쓴 80만 개의 피드백 데이터를 ‘PRM800K’라는 이름으로 공개했습니다.
여러분이 만약 “내 AI는 왜 답은 맞는데 설명이 이 모양이지?”라고 고민하는 개발자라면, 이 데이터셋은 필수 참고 자료입니다. AI가 단순히 정답 자판기가 아니라, “왜 이런 답이 나왔는지” 납득시키는 파트너가 되길 원한다면 말이죠.
마치며: 찍어서 맞힌 100점은 실력이 아닙니다
“모로 가도 서울만 가면 된다”는 말, AI 학습에서는 이제 안 통합니다. 과정이 엉망이면 결과도 신뢰할 수 없으니까요.
여러분의 프로젝트에서도 이제 ‘과정’을 들여다보세요. 78.2%라는 숫자가 보여주듯, 신뢰와 성능 두 마리 토끼를 잡는 열쇠는 결국 ‘제대로 된 풀이 과정’에 있습니다.
