LLM의 추론 능력을 깨우는 TORSO(Template-Oriented Reasoning) 모델의 개념적 흐름도. LLM이 외부 입력을 받아 추론하고 답변을 생성하는 과정을 시각적으로 표현한 다이어그램.
|

Let’s think step by step 이제 그만! LLM의 잠재된 추론 능력을 깨우는 가장 간단한 방법, TORSO

Let’s think step by step이제 그만! LLM의 잠재된 추론 능력을 깨우는 가장 간단한 방법, TORSO

복잡한 프롬프트 엔지니어링, 이제는 그만

프롬프트 엔지니어링, 이제 지겨우실 때도 됐습니다. 그동안 우리는 거대 언어 모델(LLM)에게 더 나은 답변을 끌어내기 위해 온갖 노력을 쏟아부었죠. ‘사고의 사슬(Chain-of-Thought)’을 엮어주고, 정교하게 다듬은 예시(Few-shot)를 수십 번씩 들이밀었습니다. 마치 어린아이에게 답안지를 통째로 외우게 하는 것처럼 말이죠.

솔직히, 이런 방식은 비효율적이고 한계가 명확했습니다. 모델을 위한 프롬프트를 만드는 데만 해도 엄청난 시간과 노력이 들어가고, 조금만 문제가 복잡해져도 엉뚱한 답을 내놓기 일쑤였죠. 💡

TORSO: 단순하지만 강력한 해결책

이런 답답함을 한방에 해결해 줄, 놀라운 논문이 등장했습니다. 바로 2025년 9월, 대한민국 고려대학교 연구팀이 발표한 TORSO (Template-Oriented Reasoning)입니다.

TORSO는 복잡한 프롬프트나 추가 학습 데이터 없이도, LLM이 이미 가지고 있는 추론 능력을 스스로 발휘하게 만드는 기발한 접근법을 제안합니다. 마치 잠재력이 충만한 선수에게 ‘자, 이제 네 실력을 마음껏 펼쳐봐’라고 한두 마디 조언만 해주는 것과 같습니다.

이 글에서는 TORSO가 기존 방식의 어떤 문제를 해결했는지, 그리고 어떻게 LLM을 더 똑똑하고 효율적으로 만들 수 있는지 그 핵심 원리와 놀라운 성능을 명쾌하게 파헤쳐 보겠습니다. 이 글을 읽고 나면 복잡한 프롬프트는 더 이상 고민거리가 아닐 겁니다.

기존 추론 방식의 딜레마: 족쇄가 된 Few-shot 프롬프트

LLM의 성능을 끌어올리기 위해 가장 널리 쓰이는 방법은 ‘문맥 내 학습(In-context learning)’, 특히 CoT(Chain-of-Thought)나 ToT(Tree of Thought) 같은 기법들이었습니다. 이 방식들은 LLM에게 몇 가지 예시(shot)를 보여주고, 그 추론 과정을 모방하도록 유도하죠.

문제는 이 방식이 제공된 예시에 너무 크게 의존한다는 점입니다. 마치 특정 레시피만 보고 요리하는 셰프처럼, 모델은 주어진 예시의 틀을 벗어나기 어려워합니다. 이는 모델의 창의적이거나 내재된 추론 능력을 제한하는 ‘족쇄’가 될 수 있습니다.

기존 방식의 한계:

  • 비용과 시간: 각기 다른 작업(Task)마다 최적의 예시를 만드는 것은 엄청난 비용과 시간을 요구합니다.
  • 일관성 부족: 특정 작업에서는 효과적이던 프롬프트가 다른 작업에서는 성능 저하를 일으키는 등 일관성을 유지하기 어렵습니다.
  • 추론 경로 제약: 모델이 더 나은 추론 경로를 찾을 수 있음에도 불구하고, 프롬프트에 제시된 경로를 억지로 따르게 만듭니다.

결국 우리는 LLM의 잠재력을 100% 활용하는 것이 아니라, 우리가 만들어준 ‘모범 답안’의 그림자 속에서 헤매게 만들고 있었던 셈입니다.

TORSO의 발상 전환: 가르치지 않고 ‘깨우기’

TORSO는 이러한 문제의 근본 원인을 파고듭니다. “LLM은 이미 방대한 데이터로 사전 학습하면서 추론 능력을 내재하고 있지 않을까?” 이 가정에서 출발한 TORSO는 추론을 ‘가르치는(teaching)’ 것이 아니라, 내재된 능력을 ‘깨우는(unlocking)’ 데 집중합니다.

그 방법은 놀라울 정도로 간단합니다. 바로 모델이 답변을 생성하는 디코딩 과정에 최소한으로 개입하여 특정 토큰을 강제로 삽입하는 것입니다.

TORSO의 두 가지 핵심 단계:

1. 추론 능력 잠금 해제 (Unlocking Reasoning)

사용자의 질문에 대한 답변 생성 첫 단계에서, 모델이 <reasoning>이라는 특정 토큰을 먼저 생성하도록 강제합니다. 이 간단한 신호 하나가 LLM에게 “자, 이제부터는 정답만 뱉지 말고, 생각하는 과정을 먼저 보여줘”라는 명확한 지시가 됩니다.

LLM은 자기회귀적(auto-regressive)으로 다음 단어를 예측하기 때문에, 시작점에 찍힌 이 토큰 하나가 이후 생성될 모든 텍스트의 방향을 ‘추론 중심’으로 바꿔놓는 것입니다.

2. 생성 마무리 (Generation Wrap-up)

모델이 추론을 충분히 전개하고 답변 생성을 마무리하려 할 때, </reasoning><answer> 토큰을 순서대로 삽입합니다. 이는 모델에게 “좋아, 지금까지의 생각은 잘 정리됐고, 이제 그 생각을 바탕으로 최종 결론을 명확하게 제시해줘”라는 신호로 작용합니다.

모델은 앞서 생성한 자신의 추론 과정을 근거로 삼아, 사용자의 질문에 직접적으로 답하는 최종 결과물을 내놓게 됩니다.

이 과정은 마치 우리가 복잡한 문제를 풀 때, 먼저 머릿속으로 여러 가설과 과정을 떠올린(reasoning) 후, 최종적으로 “그래서 정답은 OOO입니다(answer)”라고 결론 내리는 인간의 사고방식과 매우 유사합니다. TORSO는 이 자연스러운 흐름을 단 두 개의 토큰으로 유도하는 것입니다.

놀라운 성능: 더 적은 비용으로 더 높은 정확도를

“그래서 이 간단한 방법이 정말 효과가 있나요?” 네, 놀라울 정도입니다.

논문은 Llama-3.1-8B, Gemma-2-9B 등 널리 쓰이는 모델들을 대상으로 수학 문제(GSM8K), 과학 추론(ARC), 독해(RACE) 등 6개의 벤치마크에서 TORSO의 성능을 테스트했습니다.

주요 실험 결과:

  • 압도적인 성능 향상: TORSO는 거의 모든 벤치마크와 모델에서 기존의 복잡한 CoT, ToT, LtM 등 Few-shot 기반 방법들을 뛰어넘는 성능을 보였습니다. 특히 Llama-3.1-8B 모델에 적용했을 때, 평균 점수가 0.7298로 베이스라인(0.6323) 및 5-shot CoT(0.6909)보다 월등히 높았습니다.
  • 길이 효율성 (Length Efficiency): 더 놀라운 것은 ‘비용 효율성’입니다. Few-shot 방식들은 프롬프트에 긴 예시를 포함해야 하므로 입력 길이가 폭발적으로 증가합니다. 반면 TORSO는 입력 길이 증가 없이, 오히려 베이스 모델과 비슷한 짧은 길이의 추론으로 더 정확한 정답에 도달했습니다. 이는 API 비용과 응답 속도 면에서 엄청난 이점을 가집니다.
  • 추론의 질적 향상: 단순히 정답만 잘 맞추는 것이 아니었습니다. 정답을 맞힌 사례들을 대상으로 추론 과정의 적절성을 평가했을 때, TORSO가 생성한 추론이 모든 경쟁 기법보다 더 논리적이고 타당하다는 평가를 받았습니다.

이 결과는 “좋은 예시를 많이 보여줘야만 LLM이 추론을 잘한다”는 기존의 통념을 뒤집습니다. 오히려 어설픈 예시들은 모델의 잠재력을 방해할 수 있으며, 스스로 생각할 길을 열어주는 것이 더 효과적일 수 있다는 사실을 증명한 것입니다.

우리는 TORSO를 어떻게 활용할 수 있을까?

TORSO의 가장 큰 미덕은 ‘단순함’과 ‘보편성’입니다. 이 기술을 활용하기 위해 우리가 할 일은 디코딩 과정에 개입하여 특정 토큰을 삽입하는 것뿐입니다. 이는 다양한 LLM 애플리케이션에 즉시 적용 가능합니다.

  • RAG (검색 증강 생성) 시스템: 사용자의 복잡한 질문에 대해, 문서를 검색한 후 TORSO를 적용하여 ‘검색된 내용을 바탕으로 이렇게 추론했습니다’라는 과정을 보여줌으로써 답변의 신뢰도를 극적으로 높일 수 있습니다.
  • AI 튜터 및 교육용 챗봇: 학생에게 문제의 정답만 알려주는 대신, <reasoning> 파트에서 문제 해결 과정을 단계별로 설명해주어 학습 효과를 극대화할 수 있습니다.
  • 코드 생성 및 디버깅: 코드 에러 발생 시, 에러의 원인을 분석하고 해결책을 찾아가는 과정을 TORSO의 추론 파트에서 보여줌으로써 개발자가 문제의 본질을 더 쉽게 이해하도록 도울 수 있습니다.

결론: 거인의 어깨에서 내려와 스스로 걷게 하라

TORSO는 LLM의 발전에 중요한 이정표를 제시합니다. 우리는 그동안 LLM을 ‘모방하는 기계’로 보고 정교한 예시를 주입하는 데 집중해왔습니다. 하지만 TORSO는 LLM이 이미 ‘생각하는 존재’임을 상기시키며, 그 잠재력을 믿고 스스로 길을 찾도록 최소한의 ‘이정표’만 제시하는 패러다임의 전환을 보여줍니다.

물론 TORSO도 한계는 있습니다. 모델이 학습하지 않은 완전히 새로운 영역이나 극도로 어려운 문제에 대해서는 효과가 떨어질 수 있습니다. 하지만 대다수의 일반적인 과제에서 TORSO는 더 적은 비용과 노력으로, 더 높은 품질의 추론과 결과를 얻는 가장 현실적인 해답이 될 것입니다.

이제 복잡한 프롬프트의 늪에서 벗어나, TORSO라는 열쇠로 여러분의 LLM에 내재된 진짜 추론 능력을 깨워보는 것은 어떨까요?

ProB AI 연구소에서 2025년 최신 프롬프트 엔지니어링 연구 동향을 확인하세요.

🔗 AI, 이제 스스로 생각하고 행동합니다: 자율 AI 에이전트의 모든 것

Similar Posts