16%→99% 성능 점프? Least-to-Most 프롬프팅의 비밀
혹시 이런 경험 없으신가요? AI에게 복잡한 보고서 요약을 맡겼더니, 순서는 뒤죽박죽이고 핵심은 놓치는 황당한 결과물을 받아본 경험 말입니다. 기존의 ‘생각의 사슬(Chain-of-Thought, CoT)’ 프롬프팅은 분명 AI를 똑똑하게 만들었지만, 딱 가르쳐준 수준의 문제만 잘 푸는 ‘모범생’에 가까웠습니다. 구구단 예시 몇 개를 보여줬더니 곱셈은 잘하지만, 난생처음 보는 나눗셈 문제 앞에선 머뭇거리는 학생처럼 말이죠.
이처럼 AI가 ‘배운 것보다 어려운 문제’를 풀게 하는 것은 매우 중요한 과제입니다. 그리고 2023년, 구글 리서치 팀은 이 문제에 대한 아주 현실적인 해법을 제시했습니다. 바로 ‘Least-to-Most(이하 LtM) 프롬프팅‘입니다.
LtM의 핵심 아이디어는 놀랍도록 간단하고 상식적입니다. “코끼리를 먹으려면, 한 입 크기로 잘라야 한다.” 복잡한 문제를 해결 가능한 작은 조각으로 나눈 뒤, 가장 쉬운 것부터 차근차근 해결해 나가는 전략이죠.
이 글에서는 LtM 프롬프팅이 어떻게 기존 방식의 한계를 넘어서고, LLM의 추론 능력을 한 단계 끌어올리는지 그 원리를 명쾌하게 설명해 드리겠습니다.
1. 문제를 ‘분해’하고 ‘순서대로’ 해결하기
Least-to-Most 프롬프팅은 이름 그대로 ‘가장 작은(쉬운) 것에서 가장 큰(어려운) 것으로’ 나아가는 방식입니다. 이 방식은 두 가지 뚜렷한 단계로 진행됩니다.
1단계: 문제 분해 (Decomposition)
AI에게 “A, B, C를 고려해서 최종 보고서를 써줘”라고 한 번에 명령합니다.
AI에게 먼저 묻습니다. “최종 보고서를 쓰려면, 어떤 순서로 정보를 분석하고 정리해야 할까?” AI가 스스로 “A 자료 요약 → B 자료의 핵심 통계 추출 → C 관점과 비교 분석 → 결론 도출” 과 같은 계획을 세우게 만드는 것입니다.
2단계: 순차적 해결 (Sequential Solving)
분해된 계획을 무시하고, AI가 알아서 보고서를 완성하길 기다립니다.
첫 번째 단계(‘A 자료 요약’)의 결과물을 두 번째 단계(‘B 자료의 핵심 통계 추출’)를 위한 프롬프트에 입력값으로 넣어줍니다. “A 자료의 요약본은 이것이야. 이걸 참고해서 B 자료의 핵심 통계를 뽑아줘.” 이런 식으로 이전 단계의 출력이 다음 단계의 입력이 되는 ‘사슬’을 만드는 것입니다.
마치 우리가 요리를 할 때, ‘재료 손질 → 볶기 → 소스 넣기’ 순서로 진행하듯, 각 단계의 결과물이 다음 단계를 위한 준비물이 되는 것과 같습니다. 이 간단한 구조가 AI의 추론 안정성을 극적으로 높여줍니다.
2. 무엇이 다른가: CoT vs. LtM
기존의 CoT와 LtM의 차이를 ‘단어의 마지막 글자 잇기’라는 간단한 예시로 비교해 보겠습니다.
문제: “think, machine, learning”의 마지막 글자를 이어붙이세요. (정답: keg)
CoT 방식 (모범 답안 따라 쓰기):
AI는 문제를 한 번에 해결하려 합니다. “‘think’의 끝은 ‘k’, ‘machine’의 끝은 ‘e’, ‘learning’의 끝은 ‘g’니까, 전부 합치면 ‘keg’군.”
문제점: 단어 목록이 10개, 20개로 길어지면 AI는 중간에 길을 잃거나 실수를 저지를 확률이 높아집니다.
LtM 방식 (벽돌 하나씩 쌓기):
- 1단계: “think, machine”의 결과는? → AI: “ke”
- 2단계: (“think, machine”의 결과가 “ke”라는 걸 기억해.) “learning”의 마지막 글자는 ‘g’야. “ke”에 ‘g’를 더하면? → AI: “keg”
장점: 이전 계산 결과를 ‘재사용’하기 때문에 문제가 아무리 길어져도 안정적으로 정답을 쌓아 올릴 수 있습니다. 이것이 바로 LtM이 ‘길이 일반화(length generalization)’에 강한 이유입니다.
방식 | 4개 단어 | 12개 단어 |
---|---|---|
CoT | 84.2% | 31.8% |
LtM | 94.0% | 74.0% |
실험 결과는 명확했습니다. 단어 목록의 길이가 4개에서 12개로 늘어날 때, CoT의 정확도는 84.2%에서 31.8%로 급락했지만, LtM은 94.0%에서 74.0%라는 높은 정확도를 유지했습니다.
3. 잠재력 폭발: 16% vs 99.7%
LtM의 진정한 힘은 ‘구성적 일반화’, 즉 배운 요소를 새롭게 조합해 처음 보는 복잡한 문제를 푸는 능력에서 드러납니다.
자연어 명령을 행동 순서로 바꾸는 SCAN 벤치마크 실험에서, 기존 모델들은 훈련 데이터보다 긴 명령어를 처리하는 데 매우 취약했습니다. 여기서 CoT와 LtM의 성능 차이는 극명하게 갈렸습니다.
방법 | 정확도 |
---|---|
Chain-of-Thought (CoT) | 16.2% |
Least-to-Most (LtM) | 99.7% |
놀라운 점은, LtM은 단 14개의 예시만 보고도 이런 성과를 냈다는 것입니다. 수만 개의 데이터로 훈련한 전문 모델들을 가볍게 뛰어넘은 셈이죠. 이는 LtM이 AI에게 단순히 문제 풀이 ‘패턴’을 외우게 하는 것이 아니라, 문제의 근본적인 ‘문법’과 ‘구조’를 학습시키는 데 훨씬 효과적이라는 사실을 증명합니다.
결론: AI에게 ‘지도’가 아닌 ‘나침반’을 쥐여주는 법
Least-to-Most 프롬프팅은 단순히 AI의 성능을 조금 개선하는 팁이 아닙니다. AI에게 ‘스스로 길을 찾는 법’을 알려주는 교육 철학에 가깝습니다.
CoT가 정해진 길을 따라가는 ‘지도’를 보여주는 방식이라면, LtM은 어떤 미지의 문제 앞에서도 방향을 설정하고 나아갈 수 있는 ‘나침반과 등산 장비’를 챙겨주는 방식입니다.
복잡한 문제를 작은 단위로 분해하고, 차근차근 해결책을 쌓아 올리는 이 방식은 사실 우리 인간이 세상을 이해하고 문제를 해결하는 가장 보편적인 방법이기도 합니다. AI에게 어려운 과제를 맡겨야 한다면, 이제부터는 한 번에 모든 것을 요구하기보다, 문제를 잘게 나누고 순서를 정해주는 ‘LtM 방식’으로 접근해 보시는 것은 어떨까요? 아마 기대 이상의 안정적이고 논리적인 결과물을 얻게 되실 겁니다.