RDOLT의 복잡한 LLM 추론 과정을 상징하는, 뿌리와 가지가 빛나는 디지털 나무 이미지.
|

RDOLT: 차세대 LLM 추론으로 CoT의 한계를 넘는 비결

RDOLT: 차세대 LLM 추론으로 CoT의 한계를 넘는 비결

CoT(생각의 사슬)는 왜 자꾸 틀릴까요? 더 똑똑한 프롬프트, RDOLT를 소개합니다.

대형 언어 모델(LLM)의 ‘생각의 사슬(Chain-of-Thought, CoT)’ 프롬프트는 분명 획기적이었습니다. 복잡한 문제를 단계별로 풀게 시키니 성능이 눈에 띄게 좋아졌죠. 하지만 현업에서 CoT를 진지하게 사용해 본 분이라면, 그 명확한 한계에 답답함을 느낀 적이 있을 겁니다.

CoT의 가장 큰 문제는 ‘연약함’입니다. 추론 과정이 마치 도미노처럼 선형적으로 진행되거든요. 첫 번째 조각(추론)이 잘못된 방향으로 쓰러지면, 뒤따르는 모든 조각이 엉뚱한 곳을 향해 줄줄이 쓰러집니다. 중간에 바로잡을 기회가 없죠. 이 오류는 연쇄적으로 쌓여 결국 완전히 틀린 답을 내놓게 됩니다.

이걸 해결하겠다고 나온 게 ‘CoT-SC(자기 일관성)’입니다. 여러 번 시켜보고 제일 많이 나온 답을 ‘다수결’로 정하는 방식이죠. 하지만 이 역시 찜찜합니다. 만약 정답이 소수의견이면 어떡하죠? 다수결의 논리로 옳은 답이 버려질 수 있습니다.

LLM이 정말 인간처럼 생각하려면, 단순히 여러 경로를 탐색하는 걸 넘어, 생성된 생각의 ‘질’을 평가하고, 심지어 ‘틀린 생각(약한 생각)’에서도 배울 점을 찾아야 합니다.

최근 이 문제를 정면으로 다루는 흥미로운 프레임워크, ‘논리적 사고의 재귀적 분해(Recursive Decomposition of Logical Thoughts, RDOLT)’가 등장했습니다.

RDOLT란 무엇인가? 3단계 혁신으로 추론을 재설계하다

RDOLT는 기존 CoT의 약점을 보완하기 위해 설계된 새로운 프롬프팅 프레임워크입니다. 이 방식은 3가지 혁신적인 장치를 도입했습니다.

  • 재귀적 분해 (Recursive Decomposition): 복잡한 문제를 ‘Easy, Intermediate, Final’ 3단계의 난이도로 잘게 쪼갭니다.
  • 고급 선택 및 점수화 (Advanced Selection & Scoring): 생성된 여러 ‘생각(아이디어)’들에 정교하게 점수를 매겨 ‘좋은 생각’을 골라냅니다.
  • 지식 전파 (Knowledge Propagation): 이게 핵심입니다. ‘좋은 생각’뿐 아니라 ‘나쁜 생각(버려진 생각)’의 정보까지 다음 단계로 전달해 학습 재료(오답 노트)로 삼습니다.

이 세 가지 장치가 유기적으로 작동하며, LLM이 더 깊이 있고 유연하며 정확하게 사고하도록 만듭니다.

[Deep Dive 1] 재귀적 분해: 문제를 ‘Easy, Intermediate, Final’로 나누기

RDOLT의 첫 단계는 문제를 무작정 푸는 게 아니라, 난이도별로 3단계로 나누는 것입니다.

요리로 비유해볼까요?

  • Easy (쉬움): 문제의 가장 기본 재료를 식별하고 다듬습니다. (예: 수학 문제의 주어진 값 식별하기)
  • Intermediate (중간): 재료를 볶거나 끓여 중간 요리를 만듭니다. (예: 중간 단계의 계산 수행하기)
  • Final (최종): 모든 중간 요리를 합쳐 최종 플레이팅(답)을 완성합니다. (예: 모든 결과를 종합해 최종 결론 도출하기)

이렇게 단계를 나누면 LLM이 한 번에 처리해야 할 인지적 부담이 확 줄어듭니다. 각 단계에서 모델은 여러 개의 후보 ‘생각’을 생성합니다.

[Deep Dive 2] 고급 점수화 시스템: ‘좋은 생각’을 가려내는 4가지 기준

RDOLT의 핵심은 ‘평가’입니다. 생성된 수많은 아이디어 중 어떤 것을 다음 단계로 가져갈지 결정해야 하죠. RDOLT는 4가지 기준으로 깐깐하게 점수를 매깁니다.

  • 논리적 유효성 (Logical Validity): “이거, 말이 되나? 사실에 어긋나진 않나?”
  • 일관성 (Coherence): “이전 단계의 생각과 잘 이어지나? 맥락에 맞나?”
  • 단순성 (Simplicity): “명확하고 간결한가? 쓸데없이 복잡하지 않나?”
  • 적응성 (Adaptiveness): “내가 요청한 질문(최종 목표)에 부합하는가?”

LLM은 이 4가지 기준에 따라 각 생각에 점수를 매깁니다. 그리고 미리 정해둔 기준(임계값)을 넘는 ‘튼튼한 생각’만이 다음 단계로 선택됩니다.

[Deep Dive 3] RDOLT의 비밀 병기: 지식 전파 모듈 (KPM)

여기까지 들으면 ‘ToT(생각의 트리)’와 비슷해 보일 수 있습니다. 하지만 RDOLT의 진짜 비장의 무기는 바로 ‘지식 전파 모듈(Knowledge Propagation Module, KPM)’입니다.

KPM은 CoT-SC처럼 ‘다수결’로 소수의견을 버리지 않습니다. 점수가 낮아 ‘거부된 생각(약한 생각)’을 폐기하는 대신, “이 아이디어는 A라는 이유로 B점수를 받고 거부됨”이라는 정보 자체를 추적합니다.

이게 왜 중요할까요?

우리가 회의할 때를 생각해보면 쉽습니다. A안이 채택되었지만, B안에서 나온 ‘특정 관점’이 나중에 A안을 보완할 힌트가 되기도 하죠. 심지어 C안이 ‘왜’ 나쁜지 분석하는 과정에서 더 좋은 아이디어가 나오기도 합니다.

KPM이 바로 이 역할을 합니다. LLM에게 ‘학습 능력’을 주는 거죠.

  • 오답 노트: 왜 틀렸는지(약한 생각)를 다음 단계에 알려줘 같은 실수를 반복하지 않게 합니다.
  • 유연성: 당장은 별로 같아도 나중에 쓸모 있을지 모를 아이디어를 보존합니다.
  • 막힘 방지: 만약 모든 생각이 다 별로라면? KPM이 ‘싹 다 거부됨’ 신호를 보내 아이디어를 다시 생성하라고 요청합니다. 추론이 멈추지 않죠.

결과가 증명한다: RDOLT vs. 기존 SOTA 기법

이 방식, 그럴듯하게 들리기만 하는 게 아닙니다. 실제 벤치마크 테스트에서 강력한 성능을 입증했습니다.

연구팀은 GSM8K (수학), SVAMP (수학) 등 5가지 주요 추론 벤치마크에서 RDOLT를 테스트했습니다.

결과는 인상적이었습니다.

GSM8K 벤치마크 (ChatGPT-4o 모델)
RDOLT: 90.98%
CoT-SC: 89.4%
Auto-CoT: 85.8%

가장 널리 쓰이는 CoT-SC 대비 6% 이상 더 높은 정확도를 달성하며 기존 SOTA(최고 성능)를 넘어섰습니다. 다른 벤치마크에서도 RDOLT는 기존 방식들을 일관되게 능가하는 성능을 보였습니다.

실행 가이드: ‘RDOLT처럼 생각하는’ 실용적인 4단계

RDOLT 프레임워크를 당장 코드로 구현하긴 복잡합니다. 하지만 우리는 이 논문의 핵심 원칙을 차용하여 우리 자신의 프롬프트 엔지니어링을 개선할 수 있습니다.

복잡한 작업을 LLM에게 맡길 때, ‘RDOLT처럼 생각하는’ 4단계 가이드를 제안합니다.

[1단계: 분해] 작업을 3단계로 쪼개서 질문하세요.

Wrong (CoT 방식):
“이 보고서를 요약하고 실행 방안 3가지를 도출해 줘.” (한 번에 다 시키기)

Right (RDOLT 스타일):

  • (Easy): “이 보고서의 핵심 주장(Key Claim) 3가지를 먼저 식별해 줘.”
  • (Intermediate): “좋아. 그 주장들을 바탕으로, 각 주장이 비즈니스에 미칠 수 있는 ‘긍정적 영향’과 ‘부정적 위험’을 분석해 줘.”
  • (Final): “마지막으로, 분석된 ‘긍정적 영향’을 극대화하고 ‘부정적 위험’을 완화할 수 있는 구체적인 실행 방안(Action Plan) 3가지를 제안해 줘.”

[2단계: 생성] 여러 개의 ‘생각(답변)’을 생성하세요.

단일 답변을 요구하지 마세요. “3가지 다른 접근 방식을 제안해 줘”라고 요청하여 다양한 후보 ‘생각’을 생성하도록 유도합니다.

[3단계: 평가] 4가지 기준으로 ‘생각’을 평가하세요.

생성된 3가지 접근 방식을 보며 스스로 ‘점수’를 매겨보는 겁니다.

  • (논리성) “이 접근이 말이 되는가?”
  • (일관성) “이전 단계의 내 요구와 일관되는가?”
  • (단순성) “명확하고 이해하기 쉬운가?”
  • (적응성) “내 최종 목표에 부합하는가?”

[4KPM] ‘약한 생각(버려진 안)’을 버리지 마세요.

A, B, C안 중 A안을 채택했더라도, B안이나 C안에 있던 흥미로운 아이디어를 버리지 마세요.

다음 프롬프트에 “A안을 기반으로 진행하되, 아까 B안에서 제안했던 ‘OOO’ 관점도 일부 반영해 줘”라고 ‘약한 생각’의 정보를 함께 ‘전파’시킵니다.

결론: 추론의 미래, ‘버리는 생각’ 없이 학습하기

RDOLT 프레임워크는 LLM 추론 방식에 중요한 시사점을 던집니다. 단순히 ‘생각의 사슬’을 따르거나 ‘다수결’에 의존하는 대신, RDOLT는 모든 생성된 생각을 ‘데이터’로 간주합니다.

‘강한 생각’은 다음 단계로 나아가는 디딤돌이 되고, ‘약한 생각’은 같은 실수를 반복하지 않게 하는 ‘오답 노트’가 됩니다. 이는 인간이 복잡한 문제를 해결하는 방식과 매우 유사합니다.

물론 RDOLT도 계산 비용 증가 등 한계는 있습니다. 하지만 RDOLT가 제시한 ‘재귀적 분해’, ‘정교한 평가’, 그리고 ‘실패로부터의 학습(KPM)’이라는 3가지 원칙은, 우리가 LLM의 추론 능력을 한계까지 끌어올리는 데 핵심적인 열쇠가 될 것입니다.

FAQ (자주 묻는 질문)

Q1: RDOLT 프롬프팅이란 무엇인가요?

A1: LLM의 복잡한 추론 능력을 높이는 새로운 프롬프팅 프레임워크입니다. 1) 문제를 ‘Easy, Intermediate, Final’ 3단계로 쪼개고, 2) 4가지 기준(논리성, 일관성, 단순성, 적응성)으로 아이디어를 ‘점수화’하며, 3) ‘거부된 생각(약한 생각)’의 정보까지 활용해 오류를 줄이고 정확도를 높이는 방식입니다.

Q2: RDOLT가 기존 CoT(생각의 사슬)와 어떻게 다른가요?

A2: ‘오류 처리’와 ‘평가’ 방식이 근본적으로 다릅니다. CoT는 중간에 실수하면 그게 끝까지 이어집니다(도미노처럼). 반면 RDOLT는 각 단계에서 여러 생각을 생성하고, 정교한 4-Factor 점수화 시스템으로 최적의 생각(strong thought)을 선택합니다. 특히 ‘나쁜 생각’에서도 배울 점(왜 나빴는지)을 찾아 다음 단계에 반영한다는 점(KPM)이 가장 큰 차이입니다.

Q3: KPM(지식 전파 모듈)이 정확히 어떤 역할을 하나요?

A3: ‘오답 노트’ 역할입니다. 점수가 낮아 ‘거부된 생각’을 그냥 버리는 게 아니라, “이 생각은 ‘논리성’이 부족해서 30점 맞고 거부됨” 같은 정보를 모두 추적합니다. 이 ‘실패 데이터’를 후속 추론 단계(Intermediate, Final)에 모두 전달해서, 모델이 같은 실수를 반복하지 않고 더 나은 결정을 내리도록 돕습니다. 잠재적으로 유용했을 아이디어를 보존하는 역할도 합니다.

Similar Posts