AI가 오답을 줄이는 기술, System 2 Reasoning과 추론 시간 연산의 이해

OpenAI o1의 System 2 Reasoning 과정을 시각화한 논리 설계도 스케치 이미지

혹시 최신 모델을 쓰다가 이런 생각 해보신 적 없나요? “아니, 미적분은 기가 막히게 풀면서 왜 이런 간단한 논리 퀴즈에서 헛소리를 하지?”

우리는 보통 이걸 ‘프롬프트’ 탓으로 돌리곤 합니다. “생각 좀 하면서 답변해봐(CoT)”라고 주문하면 만사가 해결될 줄 알았죠. 하지만 오늘 소개할 논문 “Towards System 2 Reasoning in LLMs”는 아주 직설적인 진실을 날립니다.

“지금까지의 AI는 진짜 ‘생각’을 한 게 아니라, 생각하는 ‘척’을 흉내 낸 것에 불과하다.”

오늘은 OpenAI o1 모델의 핵심 원리이자, LLM에게 ‘진짜 뇌’를 달아주는 System 2 Reasoning과 Meta-CoT가 무엇인지 아주 쉽게 풀어드리겠습니다.

말만 빠른 앵무새와 신중한 수학자의 차이

Table of Contents 숨기기

말만 빠른 앵무새와 신중한 수학자의 차이

비교해 볼까요?

Meta-CoT: “모르면 되돌아가서 다시 생각해!”

내 모델에 생각하는 뇌를 이식하는 3단계

Step 1. 오답 노트가 포함된 데이터 만들기

Step 2. 중간 과정에 점수 주기 (PRM)

Step 3. 강화학습으로 마무리

AI는 이제 자판기에서 연구자가 되고 있습니다

오늘의 핵심 요약

AI 최신 기법의 모든 것을 배우고 싶으신가요?

심리학자 대니얼 카너먼은 인간의 사고를 두 가지 시스템으로 정의했습니다. 이걸 AI에 대입해 보면 왜 기존 모델이 한계를 보였는지 명확해집니다.

System 1 (직관): “1+1=?” 하면 바로 “2”가 튀어나오는 것. 빠르고 자동적이지만, 복잡한 문제에선 실수가 잦습니다. 지금까지의 GPT-4o 같은 모델들은 본질적으로 이 ‘직관’에 의존합니다.

System 2 (숙고): “17 x 24는?” 하고 멈춰 서서 계산하는 과정입니다. 느리고 에너지가 많이 들지만, 논리적이죠.

비교해 볼까요?

잘못된 예 (기존 CoT): 정답으로 가는 일직선 도로만 달립니다. 중간에 길을 잘못 들면 그대로 낭떠러지로 떨어지죠. (오답 출력)
올바른 예 (System 2): 길을 가다가 “어? 여기가 아닌가?” 싶으면 멈춰 서서 지도를 다시 보고, 왔던 길을 되돌아갑니다.

논문은 기존 LLM이 모르는 문제를 만났을 때 ‘멈춰 서서 고민하고 가설을 수정하는 과정(Search)’이 없다는 점을 꼬집습니다.

Meta-CoT: “모르면 되돌아가서 다시 생각해!”

그래서 등장한 개념이 바로 Meta Chain-of-Thought (Meta-CoT)입니다. 기존 CoT가 단순히 ‘풀이 과정 적기’였다면, Meta-CoT는 ‘풀이 과정을 관리하는 운영체제’라고 보시면 됩니다.

핵심은 세 가지입니다.

분해(Decomposition): 큰 덩어리의 문제를 잘게 쪼갭니다.
구조화(Structuring): 생각의 흐름을 논리적으로 엮습니다.
정제(Refining): (가장 중요!) 중간에 틀린 것 같으면 과감히 ‘빽’ 해서 다시 생각합니다.

실제로 OpenAI o1-preview 모델의 데이터를 보면, 어려운 문제일수록 토큰 사용량이 폭발합니다. 이건 답이 길어서가 아니라, 모델이 내부적으로 “이게 맞나? 아니네. 다시 해보자”라며 ‘생각의 시간(Inference-time Compute)’을 쓰고 있다는 강력한 증거입니다.

내 모델에 생각하는 뇌를 이식하는 3단계

엔지니어라면 “그래서 어떻게 만드는데?”가 가장 궁금하시겠죠? 논문이 제안하는 실전 가이드는 이렇습니다.

Step 1. 오답 노트가 포함된 데이터 만들기

모델에게 정답만 가르치지 마세요. MCTS(몬테카를로 트리 탐색) 같은 알고리즘을 써서, 실패했다가 되돌아와서 결국 성공하는 과정이 담긴 데이터를 학습시켜야 합니다. “아, 이렇게 틀렸을 때는 저렇게 수정하면 되는구나”를 가르치는 게 핵심입니다.

Step 2. 중간 과정에 점수 주기 (PRM)

결과만 보고 “잘했어/못했어”라고 하는 건 무책임합니다. 풀이의 단계별로 점수를 매기는 프로세스 보상 모델(PRM)이 필요합니다. 내비게이션이 경로를 이탈할 때마다 “경로를 재탐색합니다”라고 알려주는 것과 같습니다.

Step 3. 강화학습으로 마무리

이 데이터를 가지고 모델을 사후 학습(Post-training)시킵니다. 그러면 모델은 새로운 문제를 만났을 때 스스로 탐색 전략을 짜는 법을 배우게 됩니다.

AI는 이제 자판기에서 연구자가 되고 있습니다

지금까지의 AI가 버튼을 누르면 답이 나오는 ‘자판기’였다면, 이제는 스스로 고민하고 검증하는 ‘연구자’로 진화하고 있습니다.

모델의 성능을 높이고 싶으신가요? 이제는 “얼마나 많은 지식을 외웠나”보다 “답을 내기 전까지 얼마나 깊게 고민하게 만들 것인가”에 집중해야 합니다. 여러분의 서비스에도 AI에게 ‘생각할 시간’을 줘보세요. 답변은 조금 느려질지 몰라도, 그 퀄리티는 차원이 다를 겁니다.

오늘의 핵심 요약

문제점: 기존 AI는 생각하는 ‘척’만 할 뿐, 실제로는 패턴 인출(System 1)에 가깝다.
해결책: Meta-CoT를 통해 탐색, 검증, 역추적(Backtracking) 기능을 부여해야 한다.
미래: ‘추론 시간 연산량(Inference-time Compute)’을 어떻게 확보하느냐가 모델의 진짜 실력이 될 것이다.

AI가 오답을 줄이는 기술, System 2 Reasoning과 추론 시간 연산의 이해