Let's think step by step 이제 그만! LLM의 잠재된 추론 능력을 깨우는 가장 간단한 방법, TORSO

프롬프트 엔지니어링, 이제 지겨우실 때도 됐습니다. 그동안 우리는 거대 언어 모델(LLM)에게 더 나은 답변을 끌어내기 위해 온갖 노력을 쏟아부었죠. ‘사고의 사슬(Chain-of-Thought)’을 엮어주고, 정교하게 다듬은 예시(Few-shot)를 수십 번씩 들이밀었습니다. 마치 어린아이에게 답안지를 통째로 외우게 하는 것처럼 말이죠.

솔직히, 이런 방식은 비효율적이고 한계가 명확했습니다. 모델을 위한 프롬프트를 만드는 데만 해도 엄청난 시간과 노력이 들어가고, 조금만 문제가 복잡해져도 엉뚱한 답을 내놓기 일쑤였죠. 💡

TORSO: 단순하지만 강력한 해결책

이런 답답함을 한방에 해결해 줄, 놀라운 논문이 등장했습니다. 바로 2025년 9월, 대한민국 고려대학교 연구팀이 발표한 TORSO (Template-Oriented Reasoning)입니다.

TORSO는 복잡한 프롬프트나 추가 학습 데이터 없이도, LLM이 이미 가지고 있는 추론 능력을 스스로 발휘하게 만드는 기발한 접근법을 제안합니다. 마치 잠재력이 충만한 선수에게 ‘자, 이제 네 실력을 마음껏 펼쳐봐’라고 한두 마디 조언만 해주는 것과 같습니다.

이 글에서는 TORSO가 기존 방식의 어떤 문제를 해결했는지, 그리고 어떻게 LLM을 더 똑똑하고 효율적으로 만들 수 있는지 그 핵심 원리와 놀라운 성능을 명쾌하게 파헤쳐 보겠습니다. 이 글을 읽고 나면 복잡한 프롬프트는 더 이상 고민거리가 아닐 겁니다.

기존 추론 방식의 딜레마: 족쇄가 된 Few-shot 프롬프트

LLM의 성능을 끌어올리기 위해 가장 널리 쓰이는 방법은 ‘문맥 내 학습(In-context learning)’, 특히 CoT(Chain-of-Thought)나 ToT(Tree of Thought) 같은 기법들이었습니다. 이 방식들은 LLM에게 몇 가지 예시(shot)를 보여주고, 그 추론 과정을 모방하도록 유도하죠.

문제는 이 방식이 제공된 예시에 너무 크게 의존한다는 점입니다. 마치 특정 레시피만 보고 요리하는 셰프처럼, 모델은 주어진 예시의 틀을 벗어나기 어려워합니다. 이는 모델의 창의적이거나 내재된 추론 능력을 제한하는 ‘족쇄’가 될 수 있습니다.

기존 방식의 한계:

비용과 시간: 각기 다른 작업(Task)마다 최적의 예시를 만드는 것은 엄청난 비용과 시간을 요구합니다.
일관성 부족: 특정 작업에서는 효과적이던 프롬프트가 다른 작업에서는 성능 저하를 일으키는 등 일관성을 유지하기 어렵습니다.
추론 경로 제약: 모델이 더 나은 추론 경로를 찾을 수 있음에도 불구하고, 프롬프트에 제시된 경로를 억지로 따르게 만듭니다.

결국 우리는 LLM의 잠재력을 100% 활용하는 것이 아니라, 우리가 만들어준 ‘모범 답안’의 그림자 속에서 헤매게 만들고 있었던 셈입니다.

TORSO의 발상 전환: 가르치지 않고 ‘깨우기’

TORSO는 이러한 문제의 근본 원인을 파고듭니다. “LLM은 이미 방대한 데이터로 사전 학습하면서 추론 능력을 내재하고 있지 않을까?” 이 가정에서 출발한 TORSO는 추론을 ‘가르치는(teaching)’ 것이 아니라, 내재된 능력을 ‘깨우는(unlocking)’ 데 집중합니다.

그 방법은 놀라울 정도로 간단합니다. 바로 모델이 답변을 생성하는 디코딩 과정에 최소한으로 개입하여 특정 토큰을 강제로 삽입하는 것입니다.

TORSO의 두 가지 핵심 단계:

1. 추론 능력 잠금 해제 (Unlocking Reasoning)

사용자의 질문에 대한 답변 생성 첫 단계에서, 모델이 <reasoning>이라는 특정 토큰을 먼저 생성하도록 강제합니다. 이 간단한 신호 하나가 LLM에게 “자, 이제부터는 정답만 뱉지 말고, 생각하는 과정을 먼저 보여줘”라는 명확한 지시가 됩니다.

LLM은 자기회귀적(auto-regressive)으로 다음 단어를 예측하기 때문에, 시작점에 찍힌 이 토큰 하나가 이후 생성될 모든 텍스트의 방향을 ‘추론 중심’으로 바꿔놓는 것입니다.

2. 생성 마무리 (Generation Wrap-up)

모델이 추론을 충분히 전개하고 답변 생성을 마무리하려 할 때, </reasoning>과 <answer> 토큰을 순서대로 삽입합니다. 이는 모델에게 “좋아, 지금까지의 생각은 잘 정리됐고, 이제 그 생각을 바탕으로 최종 결론을 명확하게 제시해줘”라는 신호로 작용합니다.

모델은 앞서 생성한 자신의 추론 과정을 근거로 삼아, 사용자의 질문에 직접적으로 답하는 최종 결과물을 내놓게 됩니다.

이 과정은 마치 우리가 복잡한 문제를 풀 때, 먼저 머릿속으로 여러 가설과 과정을 떠올린(reasoning) 후, 최종적으로 “그래서 정답은 OOO입니다(answer)”라고 결론 내리는 인간의 사고방식과 매우 유사합니다. TORSO는 이 자연스러운 흐름을 단 두 개의 토큰으로 유도하는 것입니다.

놀라운 성능: 더 적은 비용으로 더 높은 정확도를

“그래서 이 간단한 방법이 정말 효과가 있나요?” 네, 놀라울 정도입니다.

논문은 Llama-3.1-8B, Gemma-2-9B 등 널리 쓰이는 모델들을 대상으로 수학 문제(GSM8K), 과학 추론(ARC), 독해(RACE) 등 6개의 벤치마크에서 TORSO의 성능을 테스트했습니다.

주요 실험 결과:

압도적인 성능 향상: TORSO는 거의 모든 벤치마크와 모델에서 기존의 복잡한 CoT, ToT, LtM 등 Few-shot 기반 방법들을 뛰어넘는 성능을 보였습니다. 특히 Llama-3.1-8B 모델에 적용했을 때, 평균 점수가 0.7298로 베이스라인(0.6323) 및 5-shot CoT(0.6909)보다 월등히 높았습니다.
길이 효율성 (Length Efficiency): 더 놀라운 것은 ‘비용 효율성’입니다. Few-shot 방식들은 프롬프트에 긴 예시를 포함해야 하므로 입력 길이가 폭발적으로 증가합니다. 반면 TORSO는 입력 길이 증가 없이, 오히려 베이스 모델과 비슷한 짧은 길이의 추론으로 더 정확한 정답에 도달했습니다. 이는 API 비용과 응답 속도 면에서 엄청난 이점을 가집니다.
추론의 질적 향상: 단순히 정답만 잘 맞추는 것이 아니었습니다. 정답을 맞힌 사례들을 대상으로 추론 과정의 적절성을 평가했을 때, TORSO가 생성한 추론이 모든 경쟁 기법보다 더 논리적이고 타당하다는 평가를 받았습니다.

이 결과는 “좋은 예시를 많이 보여줘야만 LLM이 추론을 잘한다”는 기존의 통념을 뒤집습니다. 오히려 어설픈 예시들은 모델의 잠재력을 방해할 수 있으며, 스스로 생각할 길을 열어주는 것이 더 효과적일 수 있다는 사실을 증명한 것입니다.

우리는 TORSO를 어떻게 활용할 수 있을까?

TORSO의 가장 큰 미덕은 ‘단순함’과 ‘보편성’입니다. 이 기술을 활용하기 위해 우리가 할 일은 디코딩 과정에 개입하여 특정 토큰을 삽입하는 것뿐입니다. 이는 다양한 LLM 애플리케이션에 즉시 적용 가능합니다.

RAG (검색 증강 생성) 시스템: 사용자의 복잡한 질문에 대해, 문서를 검색한 후 TORSO를 적용하여 ‘검색된 내용을 바탕으로 이렇게 추론했습니다’라는 과정을 보여줌으로써 답변의 신뢰도를 극적으로 높일 수 있습니다.
AI 튜터 및 교육용 챗봇: 학생에게 문제의 정답만 알려주는 대신, <reasoning> 파트에서 문제 해결 과정을 단계별로 설명해주어 학습 효과를 극대화할 수 있습니다.
코드 생성 및 디버깅: 코드 에러 발생 시, 에러의 원인을 분석하고 해결책을 찾아가는 과정을 TORSO의 추론 파트에서 보여줌으로써 개발자가 문제의 본질을 더 쉽게 이해하도록 도울 수 있습니다.

결론: 거인의 어깨에서 내려와 스스로 걷게 하라

TORSO는 LLM의 발전에 중요한 이정표를 제시합니다. 우리는 그동안 LLM을 ‘모방하는 기계’로 보고 정교한 예시를 주입하는 데 집중해왔습니다. 하지만 TORSO는 LLM이 이미 ‘생각하는 존재’임을 상기시키며, 그 잠재력을 믿고 스스로 길을 찾도록 최소한의 ‘이정표’만 제시하는 패러다임의 전환을 보여줍니다.

물론 TORSO도 한계는 있습니다. 모델이 학습하지 않은 완전히 새로운 영역이나 극도로 어려운 문제에 대해서는 효과가 떨어질 수 있습니다. 하지만 대다수의 일반적인 과제에서 TORSO는 더 적은 비용과 노력으로, 더 높은 품질의 추론과 결과를 얻는 가장 현실적인 해답이 될 것입니다.

이제 복잡한 프롬프트의 늪에서 벗어나, TORSO라는 열쇠로 여러분의 LLM에 내재된 진짜 추론 능력을 깨워보는 것은 어떨까요?

ProB AI 연구소에서 2025년 최신 프롬프트 엔지니어링 연구 동향을 확인하세요.

🔗 AI, 이제 스스로 생각하고 행동합니다: 자율 AI 에이전트의 모든 것

Let’s think step by step 이제 그만! LLM의 잠재된 추론 능력을 깨우는 가장 간단한 방법, TORSO

복잡한 프롬프트 엔지니어링, 이제는 그만

TORSO: 단순하지만 강력한 해결책