정답’ 대신 ‘과정’을 가르친다? 메타 프롬프팅 완벽 가이드
LLM이 왜 수학은 못할까요? ‘생각의 틀’을 가르쳐 봤습니다 (메타 프롬프팅)
우리는 LLM이 글은 참 그럴듯하게 잘 쓴다고 생각합니다. 하지만 막상 복잡한 수학 문제나 논리적인 추론을 시켜보면 엉뚱한 답을 내놓을 때가 많죠.
왜 그럴까요? LLM은 마치 빠른 직관(System 1)은 극도로 발달했지만, 신중한 분석(System 2)은 거의 훈련되지 않은 학생과 같습니다.
기존에 LLM의 추론 능력을 높이려던 시도들(CoT, ToT 등)은 이 학생에게 ‘모범 답안’ 10개를 보여주며 “자, 보고 따라 해”라고 하는 것과 같았습니다. 하지만 이건 진짜 ‘생각하는 법’을 가르친 게 아니죠.
만약 LLM에게 ‘무엇을’ 생각할지 예시를 주는 대신, ‘어떻게’ 생각해야 하는지 그 ‘틀’ 자체를 알려줄 수 있다면 어떨까요?
이 질문에 대한 답이 바로 오늘 소개할 메타 프롬프팅(Meta Prompting, MP)입니다. 놀랍게도 이 방법을 쓰자, 평범한 기본 모델이 별다른 훈련 없이도 고난도 수학 시험에서 최고 수준의 성과를 냈습니다.
1. 메타 프롬프팅(MP)이란 무엇인가요?
한마디로 ‘정답 예시(콘텐츠)’가 아닌 ‘풀이 절차(구조)’를 가르치는 방식입니다. ‘무엇을’ 생각할지(What to think)가 아닌, ‘어떻게’ 생각할지(How to think)를 위한 ‘생각의 틀’을 제공하는 것이죠.
기존 방식과 비교하면 그 차이가 명확합니다.
- 기존 방식: “자, 이 2차 방정식 문제 5개와 풀이 5개다. 이걸 보고 유추해서 다음 문제를 풀어.” (콘텐츠 기반)
- 메타 프롬프팅: “2차 방정식을 풀 때는 1. 계수 a, b, c를 먼저 식별하고, 2. 판별식을 계산한 뒤, 3. 근의 공식을 적용해. 이 절차대로 풀어.” (구조/프로세스 기반)
이 접근 방식은 두 가지 강력한 장점이 있습니다.
- 경제적입니다 (토큰 효율성): 수많은 예시를 구구절절 나열할 필요 없이, 단 하나의 ‘절차’ 템플릿만 제공하면 되니 훨씬 적은 비용(토큰)이 듭니다.
- 공정한 평가가 가능합니다: 예시를 암기해서 푸는 건지 진짜 실력인지 알기 어려웠던 기존 방식과 달리, MP는 예시 없이(제로샷) 모델의 순수한 추론 능력 자체를 평가할 수 있게 해줍니다.
2. 이론적 기반: ‘레고 블록’처럼 완벽하게 조립됩니다
이게 그저 ‘감으로 해보니 되더라’ 수준이 아니라, ‘카테고리 이론’이라는 탄탄한 수학 분야를 통해 그 효과가 증명된다는 점이 중요합니다.
이해하기 쉬운 비유를 들어보겠습니다.
- 여기 ‘작업의 세계’가 있습니다. (‘2차 방정식 풀기’, ‘보고서 쓰기’ 등)
- 저기 ‘프롬프트의 세계’가 있습니다. (‘2차 방정식 풀이 템플릿’, ‘보고서 작성 템플릿’ 등)
메타 프롬프팅은 이 두 세계를 완벽하게 연결하는 ‘만능 번역기'(수학 용어로 ‘펀터’)와 같습니다.
이 ‘번역기’가 왜 대단할까요? 바로 ‘조립’을 보장하기 때문입니다.
만약 ‘A 프롬프트(서론 쓰기)’와 ‘B 프롬프트(본론 쓰기)’를 레고 블록처럼 합쳐서 ‘C 프롬프트(보고서 쓰기)’를 만든다고 할 때, 이 번역기는 C 프롬프트가 우리가 원래 의도한 ‘C 작업(보고서 쓰기)’을 절대 고장 내지 않고 완벽하게 수행하도록 수학적으로 보장합니다.
즉, 우리가 만든 ‘생각의 틀’들이 서로 꼬이거나 망가지지 않도록 하는 ‘설계 품질 보증서’ 역할을 하는 셈입니다.
3. 스스로 진화하는 프롬프트: 재귀적 메타 프롬프팅(RMP)
연구진은 여기서 한 걸음 더 나아갑니다. LLM이 아예 ‘스스로 프롬프트를 만들고 개선하게’ 시키는 재귀적 메타 프롬프팅(Recursive Meta Prompting, RMP)입니다.
- 기존 방식: “이 문제 풀어.”
- RMP 방식: “이 문제를 가장 잘 풀 수 있는 ‘최고의 설명서(프롬프트)’를 네가 직접 만들어 봐.”
이러면 ‘설명서를 만드는 설명서를 만드는 설명서…’처럼 ‘무한 거울’에 빠질 것 같지만, 여기서도 ‘모나드’라는 수학적 장치가 이 과정을 안정적으로 관리해 줍니다.
간단히 말해, ‘프롬프트 제작자(Proposer) LLM’이 해당 작업에 딱 맞는 맞춤형 템플릿을 만들면, ‘실행자(Executor) LLM’이 그 템플릿을 받아서 문제를 완벽하게 풀어내는 방식입니다.
4. 그래서, 효과는 있었나요? (실험 결과)
이론만 그럴듯한 게 아닙니다. 평범한 Qwen-72B 기본 모델에 메타 프롬프팅을 적용한 결과는 압도적이었습니다.
- MATH (고난도 수학): 제로샷 MP를 적용한 기본 모델이 46.3%의 정확도를 달성했습니다. 이는 특별 훈련(파인튜닝)된 모델(41.7%)이나 초기 GPT-4(42.5%)보다도 높은 수치입니다.
- GSM8K (초등 수학): 역시 제로샷 MP를 적용한 기본 모델이 83.5%를 기록, 다른 어떤 방식보다 뛰어났습니다.
- Game of 24 (논리 게임): MP 방식은 100% 성공률을 달성했습니다. (참고: 다른 방식들은 74%, 49% 수준)
핵심은 별도의 특별 훈련(파인튜닝) 없이, 오직 ‘생각의 구조’를 잡아주는 것만으로 모델의 내재된 잠재력을 강력하게 이끌어냈다는 것입니다.
5. 우리도 써먹을 수 있나요? (실전 예시)
그럼 우리는 이 메타 프롬프트를 어떻게 작성할 수 있을까요? 원칙은 간단합니다. ‘정답’이 아닌 ‘과정’을 지시하는 것입니다.
논문에 나온 MATH 문제 해결용 메타 프롬프트의 핵심 구조는 이렇습니다.
문제: [여기에 질문 입력]
해결책 구조:
- 응답을 “Let’s think step by step.”으로 시작하라.
- 해결 과정이 명확하고 논리적으로 분해되도록 추론 단계를 따라라.
- 명확성을 위해 최종 답변을 LaTeX 박스로 캡슐화하라.
- 최종적으로 “The answer is [final answer].”라고 명시하라.
이 템플릿은 LLM이 ‘대충 직감(System 1)’으로 답하는 게 아니라, ‘논리적 절차(System 2)’를 밟도록 강제합니다.
결론: 생각의 ‘틀’을 설계하는 시대
메타 프롬프팅은 우리가 LLM을 다루는 방식을 ‘감(Art)’의 영역에서 ‘설계(Science)’의 영역으로 바꾸고 있습니다.
LLM에게 ‘무엇을’ 아는지 묻는 시대를 지나, ‘어떻게’ 사고해야 하는지 가르치는 시대가 온 것입니다.
이제 LLM이 복잡한 문제 앞에서 헤매고 있다면, ‘정답’ 대신 ‘생각의 틀’을 선물해 줄 때입니다.
