SELF-DISCOVER 프롬프트: CoT보다 40배 저렴하게 GPT-4 성능 32% 올리는 법

LLM을 다루다 보면 일명 ‘프롬프트 깎기’에 지칠 때가 있습니다. 특히 복잡한 추론 문제에서 벽을 느끼죠. 우리는 지금까지 “단계별로 생각해(Chain-of-Thought, CoT)”라는 주문을 만능열쇠처럼 써왔습니다.

하지만 최근 구글 딥마인드와 USC의 연구 결과는 이 믿음을 깹니다. AI에게 “무조건 풀지 말고, 푸는 방법부터 설계해”라고 시켰더니, GPT-4 성능이 32%나 오르고 비용은 1/40로 줄었습니다. 이것이 바로 ‘SELF-DISCOVER’ 프레임워크입니다.

원리가 무엇인지, 그리고 당장 여러분의 업무에 어떻게 적용할 수 있는지 핵심만 추려 정리해 드립니다.

CoT의 한계: 모든 요리를 ‘라면 레시피’로 할 순 없다

Table of Contents 숨기기

우리는 흔히 CoT를 쓰면 AI가 똑똑해진다고 착각합니다. 물론 효과는 있지만, 치명적인 맹점이 있습니다. ‘모든 문제에 똑같은 사고방식을 강요한다’는 점입니다.

❌ CoT: 재료가 소고기든, 밀가루든, 생선이든 상관없이 “일단 물 끓이고 스프 넣어”라고 지시하는 것과 같습니다. 수학 문제, 소설 작성, 코딩이 같은 방식으로 풀릴 리 없죠.

⭕ SELF-DISCOVER: “재료를 보니 스테이크가 좋겠군. 그럼 팬을 달구자”라고 AI가 스스로 판단하게 해야 합니다. 즉, 문제마다 고유한 내재적 구조(Intrinsic Structure)를 먼저 찾게 하는 겁니다.

SELF-DISCOVER는 단순히 답을 내놓는 기술이 아니라, 답을 찾기 위한 ‘추론 설계도’를 먼저 만드는 과정입니다. 인간의 메타 인지(Meta-reasoning)를 모방한 이 프로세스는 다음 3단계로 작동합니다.

단계	명칭	역할	비유
Phase 1	SELECT (선택)	39가지 추론 모듈(비판적 사고, 리스크 분석 등) 중 문제에 적합한 도구를 골라냅니다.	목적지에 맞는 이동 수단(차, 배, 비행기) 고르기
Phase 2	ADAPT (조정)	선택한 도구를 현재 문제의 맥락에 맞게 구체적으로 재정의합니다.	고른 이동 수단의 경로와 속도를 구체적으로 설정하기
Phase 3	IMPLEMENT (구현)	조정된 모듈을 JSON 형태의 실행 계획으로 조립합니다.	내비게이션에 최종 경로를 입력하고 주행 시작하기

특히 마지막 단계에서 JSON 구조를 사용하는 것이 핵심입니다. 구조화된 데이터 포맷은 AI가 복잡한 추론 과정에서도 길을 잃지 않게 만드는 강력한 가이드라인이 됩니다.

이론보다 중요한 건 결과죠. 벤치마크 데이터가 증명합니다.

성능의 퀀텀 점프: GPT-4 기준, 복잡한 추론 문제(BBH)에서 CoT 대비 성능이 32% 향상되었습니다. 어려운 문제일수록 격차는 더 컸습니다.
압도적인 가성비: 기존에는 정확도를 높이려고 같은 질문을 10번 던져 투표를 시키곤 했습니다(Self-Consistency). 돈이 많이 들죠. 반면 SELF-DISCOVER는 잘 짜인 구조 하나로 승부합니다. 덕분에 연산 비용(Inference compute)을 최대 40배까지 절감했습니다. API 비용을 획기적으로 아낄 수 있다는 뜻입니다.

재미있는 실험 결과가 하나 더 있습니다. 똑똑한 모델(PaLM 2-L)이 짠 전략 지도를 덜 똑똑한 모델(Llama 2)에게 쥐여줘도 문제를 잘 푼다는 겁니다.

이는 프롬프트 엔지니어링의 핵심이 더 이상 화려한 미사여구(Word smithing)가 아니라, ‘탄탄한 논리적 구조 설계’로 이동하고 있음을 시사합니다.

오늘부터 AI에게 바로 답을 묻지 마세요. 시스템 프롬프트에 다음 흐름을 녹여보시기 바랍니다.

요약하자면:
AI를 단순한 ‘지식 자판기’로 쓰지 마세요. “이거 어떻게 풀래?”라고 먼저 물어보는 것, 그 작은 변화가 성능과 비용 효율을 모두 잡는 비결입니다.