구글 딥마인드 공개, 정답률 27% 높이는 ‘스텝백 프롬프팅’ 비결
당신의 AI가 복잡한 문제를 만났을 때, 엉뚱한 답을 내놓아 당황한 적이 있으신가요? 열심히 “단계별로 생각해보자(Chain-of-Thought)”라고 주문을 외워봐도, 중간 단계에서 계산이 꼬이거나 팩트가 틀리는 경험, 프롬프트 엔지니어라면 누구나 겪어보셨을 겁니다.
오늘은 구글 딥마인드(Google DeepMind)가 발표한 획기적인 프롬프트 기법, ‘Step-Back Prompting(한 발 물러서기 프롬프트)’을 소개합니다. 이 기법은 특히 물리, 화학 같은 STEM 분야나 복잡한 지식 검색(TimeQA)에서 놀라운 성능 향상을 보여주었습니다. 나무만 보지 말고 숲을 보게 만드는 이 기술, 지금부터 완벽하게 파헤쳐 드립니다.
왜 LLM은 복잡한 문제 앞에서 길을 잃을까?
우리는 흔히 LLM에게 복잡한 문제를 줄 때 Chain-of-Thought(CoT) 기법을 사용합니다. “단계별로 생각해서 답을 줘”라고 말이죠. 하지만 딥마인드의 연구에 따르면, CoT조차도 중간 단계에서 오류를 범하는 경우가 많습니다.
예를 들어, 물리학 문제를 푼다고 가정해 봅시다. LLM이 문제를 풀기 위해 바로 수식 계산에 뛰어들면, 어떤 공식을 써야 할지 헷갈리거나 잘못된 원리를 적용할 확률이 높습니다. 사람이 어려운 문제에 직면했을 때 잠시 멈춰 서서 “잠깐, 여기서 적용되는 기본 원리가 뭐였지?”라고 생각하는 과정이 LLM에게도 필요하다는 것입니다.
Step-Back Prompting: 추상화의 힘
Step-Back Prompting의 핵심은 ‘추상화(Abstraction)’입니다. 구체적인 세부 사항(Details)에 매몰되기 전에, 한 발 물러서서 고차원적인 개념이나 원칙을 먼저 묻는 것입니다.
이 과정은 크게 두 단계로 나뉩니다:
- 추상화(Abstraction): 원래 질문을 해결하기 위한 광범위한 상위 개념이나 원리를 묻는 ‘Step-Back Question’을 생성하고 답합니다.
- 추론(Reasoning): 위에서 얻은 원리와 개념을 바탕으로 원래 질문의 답을 도출합니다.
“추상화의 목적은 모호해지는 것이 아니라, 절대적으로 정확해질 수 있는 새로운 의미론적 수준을 만드는 것이다.” – 에츠허르 데이크스트라 (Edsger W. Dijkstra)
실전 사례 분석: CoT vs Step-Back
논문에 나온 실제 예시를 통해 이 기법이 얼마나 강력한지 확인해 보겠습니다.
사례 1: 고등학교 물리학 문제 (MMLU Physics)
질문: “온도가 2배 증가하고 부피가 8배 증가하면 이상 기체의 압력 P에는 어떤 일이 발생합니까?”
❌ 기존 모델(CoT)의 실패:
CoT를 사용한 PaLM-2L 모델은 계산 과정에서 \(P’ = (1/8) P\)라는 식을 도출하다가, 갑자기 “압력이 16배 감소한다”는 엉뚱한 결론을 내립니다. 중간 논리 단계에서 오류가 발생한 것이죠.
✅ Step-Back Prompting의 성공:
이 기법은 문제에 바로 달려들지 않습니다.
- Step-Back 질문: “이 문제 뒤에 숨겨진 물리 원칙은 무엇인가?”
- Step-Back 답변: 이상기체 법칙 \(PV=nRT\)를 먼저 소환합니다.
- 최종 추론: “온도(T)는 2T, 부피(V)는 8V가 된다. 식에 대입하면 \(P(8V) = nR(2T)\)… 즉, 압력은 4배 감소한다.”
정답입니다! 원리를 먼저 확립하고 나니 계산 실수가 사라졌습니다.
사례 2: 복잡한 지식 검색 (TimeQA)
질문: “에스텔라 레오폴드(Estella Leopold)는 1954년 8월에서 11월 사이에 어느 학교에 다녔는가?”
❌ 기존 모델의 실패: 1954년이라는 특정 기간에 집착하다가 엉뚱한 대학 이름을 환각(Hallucination)으로 만들어냅니다.
✅ Step-Back Prompting의 성공:
- Step-Back 질문: “에스텔라 레오폴드의 교육 이력(Education History)은 어떻게 되는가?”
- Step-Back 답변: 그녀의 학사, 석사, 박사 학위 취득 연도와 학교 리스트를 먼저 나열합니다. (예: 1955년 예일대 박사 취득)
- 최종 추론: “그녀는 1951년부터 1955년까지 예일대 박사 과정에 있었다. 따라서 1954년 8월~11월에는 예일대에 있었을 것이다.”
데이터로 증명된 성능: 얼마나 좋아졌나?
구글 딥마인드 팀은 PaLM-2L, GPT-4, Llama2-70B 모델을 대상으로 실험을 진행했습니다. 결과는 압도적이었습니다.
- MMLU Physics (물리): PaLM-2L 모델 기준, 성능이 7% 향상되었습니다.
- MMLU Chemistry (화학): 성능이 무려 11% 향상되었습니다.
- TimeQA (지식 검색): 가장 놀라운 결과로, 성능이 27%나 뛰어올랐습니다.
재미있는 점은, 단순히 “심호흡을 해봐(Take a Deep Breath)” 같은 감성적 프롬프트보다 Step-Back 기법이 훨씬 더 강력한 성능을 보였다는 것입니다. 특히 GPT-4에서도 성능 향상이 관찰되었으므로, 최신 모델을 사용하는 분들에게도 유효한 전략입니다.
따라해보기: 나만의 Step-Back 프롬프트 만들기
이 기법을 여러분의 업무에 바로 적용할 수 있도록, 논문에서 사용된 프롬프트 구조를 한국어로 재구성해 드립니다.
Step 1: 원리/개념 추출하기 (Abstraction Prompt)
당신은 [해당 분야, 예: 물리학/세계사]의 전문가입니다.
사용자가 문제를 제시하면, 바로 답을 하지 말고
이 문제를 해결하는 데 필요한 [기본 원리/배경 지식/상위 개념]이 무엇인지 먼저 정의하세요.
예시:
Q: [구체적 문제]
Principles: [이 문제를 풀기 위한 공식이나 역사적 맥락]
Q: {사용자의_질문}
Principles:
Step 2: 정답 도출하기 (Reasoning Prompt)
당신은 [해당 분야]의 전문가입니다.
문제와 그 문제를 해결하기 위한 원리가 주어집니다.
이 원리를 바탕으로 단계별로 추론하여 정답을 맞추세요.
Context(원리): {Step_1에서_나온_답변}
Question(질문): {사용자의_질문}
Answer:
주의할 점과 한계
물론 만능열쇠는 아닙니다. 연구진의 오류 분석(Error Analysis) 결과, Step-Back Prompting을 사용해도 여전히 ‘추론 단계(Reasoning)’에서 실수가 발생하는 경우가 90% 이상이었습니다. 즉, 원리는 잘 찾았는데 막판 계산을 틀리는 경우는 여전하다는 것이죠.
하지만, ‘원리 오류(Principle Error)’는 매우 적었습니다. 이는 LLM에게 “기본으로 돌아가라”고 지시하는 것이 추론의 방향성을 잡는 데 얼마나 효과적인지를 반증합니다.
또한, “2000년 미국 대통령은 누구인가?”와 같이 단순한 사실 확인 질문에는 굳이 이 복잡한 단계를 거칠 필요가 없습니다. 복잡한 추론이 필요한 작업(STEM, 다단계 추론)에 집중해서 사용하세요.
마치며: AI에게 ‘생각의 여유’를 주세요
Step-Back Prompting은 우리에게 중요한 교훈을 줍니다. “급할수록 돌아가라.”
AI가 복잡한 지시사항 앞에서 허둥대고 있다면, 프롬프트를 통해 잠시 멈춰 서서 큰 그림을 보게 도와주세요. 그 작은 ‘한 발 물러섬’이 정답률 27% 상승이라는 거대한 도약으로 이어질 수 있습니다.
지금 바로 여러분의 프롬프트에 “Step-Back” 로직을 추가해보세요!
