R-CoT로 GPT-4o를 이기다: 8B 모델의 기하학 추론 혁신 비결
고작 80억 파라미터 모델이 GPT-4o를 기하학 추론에서 평균 13% 앞질렀습니다. 비결은 모델의 덩치가 아니라, ‘공부하는 방법’을 바꾼 데 있었습니다.
요즘 AI가 못 하는 게 없다고들 하지만, 의외의 ‘아킬레스건’이 있습니다. 바로 중학교 수준의 기하학 문제입니다. 소설도 쓰고 코딩도 하는 거대 언어 모델(LLM)들이 삼각형 내각의 합을 구하라는 문제 앞에서는 맥을 못 추곤 하죠. 시각적 이해와 논리적 추론이 동시에 필요하기 때문입니다.
그런데 최근 흥미로운 사건이 터졌습니다. 고작 8B(80억) 파라미터 크기의 가벼운 모델이 유료 모델의 끝판왕인 GPT-4o를 기하학 추론에서 평균 13%나 앞질렀습니다. 오늘은 그 핵심 기술인 R-CoT(Reverse Chain-of-Thought) 를 아주 쉽게 풀어보겠습니다.
💡 왜 똑똑한 AI가 도형 문제만 나오면 바보가 될까?
우리가 수학 문제를 풀 때를 생각해 보죠. 눈으로 도형을 보고(시각), 머릿속으로 공식을 떠올려(지식), 단계별로 답을 냅니다(추론). 하지만 기존의 멀티모달 모델(LMM)은 이 과정에서 세 가지 치명적인 결함을 보였습니다.
| 방식 | 특징 | 한계점 (Worst Case) |
|---|---|---|
| 단순 어휘 변경 | 기존 문제의 단어만 살짝 바꿈 | 문제의 다양성이 없어 실력이 늘지 않음 |
| 템플릿 엔진 | 코드로 똑같은 도형을 찍어냄 | 이미지가 단조롭고 실제 문제와 이질감이 큼 |
| LMM 직접 생성 | AI에게 문제 생성을 맡김 | 환각(Hallucination) 발생. 틀린 정답을 정답이라 우김 |
결국 ‘질 낮은 데이터(Garbage In)’를 먹고 자란 AI는 ‘질 낮은 답변(Garbage Out)’을 내놓을 수밖에 없었습니다.
🛠️ R-CoT의 혁신: “답부터 정하고 문제를 역설계하라”
Huazhong University와 Baidu 연구진이 제안한 R-CoT(역방향 사고의 사슬)는 발상의 전환입니다. 보통은 ‘질문 → 풀이 → 정답’ 순서로 공부하지만, R-CoT는 이를 완전히 뒤집었습니다.
Step 1
GeoChain: 완벽한 설계도 그리기
건축을 하기 전 설계도를 완벽하게 그리는 과정입니다. 단순히 이미지만 만드는 게 아니라, 그 이미지 안에 담긴 ‘관계’를 텍스트로 동시에 생성합니다.
- 시각화: “반지름”, “수직선” 등 기하학적 요소가 포함된 고해상도 이미지를 렌더링합니다.
- 관계 정의: “선분 AB의 길이는 5이다”, “삼각형 ABC는 직각삼각형이다”라는 팩트(Fact)를 텍스트로 명확히 기록합니다.
Step 2
Reverse A&Q: 정답에서 질문으로 역산하기
이제 이미지는 잠시 치워둡니다. AI가 이미지에 취해 헛것을 보는(환각) 현상을 막기 위해서입니다. 오직 앞서 만든 ‘텍스트 설계도’만 보고 추론을 시작합니다.
- 논리 조립: “삼각형의 내각 합은 180도이고, 한 각이 90도이니 나머지는…” 식으로 논리 단계를 밟습니다.
- 질문 역생성: 완벽한 논리와 정답이 나왔다면, 그 정답을 도출하기 위해 필요한 질문을 마지막에 만듭니다. 마치 수학 선생님이 시험 문제를 낼 때, ‘답을 10으로 정해두고 거꾸로 식을 만드는 과정’과 같습니다. 이렇게 하면 문제와 정답이 어긋날 확률이 0에 가깝습니다.
🏆 성과: “데이터의 질이 양을 압도하다”
이렇게 정교하게 만들어진 87,000개의 데이터셋(GeoMM)으로 학습한 8B 모델은 놀라운 결과를 보여주었습니다.
기존 최고 대비 성능 향상
GPT-4o 대비 높은 정확도
(GPT-4o 대비 훨씬 경량)
덩치 큰 GPT-4o가 도형의 각도 위치를 헷갈려 할 때, 잘 훈련된 8B 모델은 군더더기 없는 논리로 정답을 맞혔습니다. 결국 AI의 성능은 파라미터 개수가 아니라, 얼마나 ‘고품질의 논리적 데이터’를 학습했느냐에 달려 있다는 것을 증명한 셈입니다.
📌 요약 및 실무 적용 포인트
R-CoT는 우리에게 중요한 통찰을 줍니다.
“모델이 이해하지 못한다면, 이해할 수 있는 구조의 데이터를 직접 설계해서 먹여라”
💊 환각이 고민이라면?
AI에게 무작정 질문에 답하라고 하기보다, 논리적 근거(Fact)를 먼저 나열하게 한 뒤 결론을 내게 하세요. R-CoT의 핵심은 ‘정답을 먼저 설계하고 질문을 역산하는’ 순서에 있습니다.
🏗️ 데이터 구축이 필요하다면?
정방향 생성보다는, 조건이 완벽하게 통제된 환경에서 결과물을 먼저 뽑고 질문을 역산하는 방식이 훨씬 효율적입니다. 문제와 정답이 어긋나는 오류를 구조적으로 제거할 수 있습니다.
혹시 여러분의 프로젝트에서 AI가 자꾸 엉뚱한 소리를 하나요? 그렇다면 질문을 바꾸기 전에, AI가 공부하는 ‘학습지의 순서’부터 의심해 보시기 바랍니다.
다음에는 이 방법론을 실제 프롬프트 엔지니어링에 어떻게 녹여낼 수 있을지 더 구체적인 사례로 돌아오겠습니다. 궁금한 점은 댓글로 남겨주세요!
관련 오픈소스와 전체 파이프라인이 궁금하시다면, 아래 링크를 통해 확인해 보시는 것을 추천합니다.
