Chain of Draft로 LLM 비용 92% 절감하는 프롬프트 기술
최근 LLM을 서비스에 연동하고 나서 API 청구서를 보고 “내가 뭘 잘못했나?” 싶어 뒷목 잡으신 적, 다들 한 번쯤 있으시죠?
성능 좀 높여보겠다고 넣은 ‘Step-by-step(단계별로 생각해봐)’이라는 마법의 주문이, 실상은 내 지갑을 털어가는 ‘투머치토커’를 소환한 꼴이 된 겁니다. 오늘은 이 수다쟁이 AI를 핵심만 짚는 천재 비서로 바꿔줄 ‘Chain of Draft(CoD)’ 기법을 깔끔하게 정리해 드립니다.
💡 핵심 요약: “말수를 줄이면 돈과 시간이 벌린다”
LLM의 토큰 비용과 응답 지연(Latency)을 줄이는 가장 즉각적인 방법은 기존의 장황한 CoT(Chain-of-Thought)를 CoD(Chain of Draft)로 교체하는 것입니다.
- 방법: 프롬프트에 “사고 단계를 5단어 이내의 최소한의 초안으로만 작성해”라고 제약 조건 추가.
- 효과: 정확도는 유지하면서 토큰 사용량 및 지연 시간 최대 92% 감소.
1. 왜 기존 방식(CoT)은 ‘가성비’가 떨어질까?
CoT는 문제를 단계별로 풀게 해 정답률을 높였지만, 비즈니스 관점에서는 치명적인 약점이 있습니다. 바로 ‘오버띵킹(Overthinking)’입니다.
- 비용 폭발: 묻지도 않은 중간 과정을 구구절절 설명하며 API 토큰을 과소비합니다.
- UX 저하: 토큰이 길어질수록 사용자는 화면 앞에서 “대답 언제 나와?” 하며 지루해합니다.
쉽게 말해, “1+1은 뭐야?”라고 물었더니 “숫자의 기원부터 덧셈의 원리를 설명하자면…”이라며 논문을 쓰고 있는 상황인 거죠.
2. 혁신의 영감: “천재는 연습장 전체를 채우지 않는다”
우리가 어려운 수학 문제를 풀 때를 떠올려 보세요. 머릿속 모든 생각을 완벽한 문장으로 내뱉나요? 아니죠. 연습장 구석에 핵심 수식이나 키워드만 ‘끄적(Draft)’이고 바로 다음 단계로 넘어갑니다.
줌(Zoom) 연구진이 제안한 CoD(Chain of Draft)가 바로 이 지점을 파고들었습니다. “불필요한 수식어 싹 다 빼고, 생각의 뼈대만 남겨라”는 것이 핵심입니다.
3. [비교] 롤리팝 계산 문제로 본 극적인 차이
똑같은 질문에 AI가 어떻게 반응하는지, 잘못된 사례와 올바른 사례를 비교해 보겠습니다.
Q: 제이슨은 롤리팝 20개를 가졌고, 데니에게 몇 개 줬더니 12개가 남았습니다. 몇 개를 줬을까요?
| 방식 | AI의 답변 스타일 | 평가 |
|---|---|---|
| CoT (투머치토커) | “먼저 제이슨의 초기 개수는 20개… 차이를 구해야 하므로 20에서 12를 빼면…” | ❌ 낭비 정답은 맞지만, 돈과 시간이 줄줄 샙니다. |
| CoD (천재의 메모) | 20 - x = 12, x = 8 #### 8 |
✅ 최적 군더더기 없이 정확하고 빠릅니다. |
4. 🛠️ 실전 적용: CoD 프롬프트 템플릿 (Copy & Paste)
가장 중요한 건 “어떻게 시키느냐”겠죠? 아래 템플릿을 여러분의 시스템 프롬프트에 그대로 적용해 보세요. 핵심은 ‘5단어 제한’과 ‘Few-shot(예시)’입니다.
[System Prompt Template]
당신은 논리적이고 효율적인 추론 전문가입니다. 답변 시 다음 원칙을 반드시 준수하세요.
1. 문제를 해결하기 위해 필요한 사고 단계를 '초안(Draft)' 형태로 작성하십시오.
2. 각 사고 단계는 반드시 5단어 이내의 핵심 키워드나 수식으로만 작성해야 합니다.
3. 불필요한 서술어나 부연 설명은 모두 생략하십시오.
4. 최종 정답은 마지막에 '#### [정답]' 형식으로 표기하십시오.
[Example]
Q: 셔츠 한 벌에 20달러인데 3개를 사면 10% 할인해 줍니다. 총 얼마인가요?
A:
셔츠 3벌: 20 * 3 = 60
10% 할인: 60 * 0.1 = 6
최종 금액: 60 - 6 = 54
#### 54달러
5. 📊 지표로 증명되는 효율성 (Claude 3.5 Sonnet 기준)
“짧게 말하면 멍청해지는 거 아냐?”라는 걱정은 접어두셔도 좋습니다.
189개 → 14개 (스포츠 이해 태스크)
4.2초 → 1.0초 (수학 풀이)
CoT보다 높거나 동일 유지
6. 🧑💻 에디터의 실전 노트: 주의사항 2가지
직접 프로젝트에 적용해 보며 느낀, 놓치면 안 될 포인트입니다.
⚠️ 주의 1: “그냥 짧게 해”라고만 하면 못 알아듣습니다.
LLM은 기본적으로 ‘친절하게’ 대답하도록 학습되었습니다. 예시 없이 그냥 시키면(Zero-shot) 갈팡질팡합니다. 반드시 위 템플릿처럼 CoD 스타일의 예시(Few-shot)를 최소 1–2개는 넣어주세요.
⚠️ 주의 2: 체급이 작은 모델(SLM)에선 버거울 수 있습니다.
3B 이하의 아주 작은 모델들은 생각의 과정을 압축하는 것 자체를 어려워합니다. 오히려 성능이 떨어질 수 있죠. 소형 모델을 쓴다면 프롬프팅보다는 CoD 형식의 데이터로 파인튜닝(Fine-tuning) 하는 것이 정답입니다.
