똑똑한 AI 활용의 한 끝 차이, 토큰 비용 줄이는 프롬프트 압축 기술
AI 토큰 비용과 성능 저하를 동시에 잡는 ‘프롬프트 다이어트’의 정석.
생성형 AI를 실무에 도입한 기업들이 요즘 공통적으로 겪는 두통거리가 있습니다. 바로 ‘토큰 비용’과 ‘성능 저하’입니다. 프롬프트가 길어지면 비용은 눈덩이처럼 불어나는데, 정작 AI는 긴 글의 중간 내용을 까먹는 ‘Lost-in-the-Middle’ 현상을 보이죠.
요리할 때 재료만 무작정 많이 넣는다고 맛있는 요리가 나오지 않는 것과 같습니다. 핵심은 ‘알짜배기’만 남기는 것이죠. 세계적인 금융기관 BNY(Bank of New York Mellon) 연구진이 발표한 ‘CompactPrompt’는 바로 이 프롬프트 다이어트의 정석을 보여줍니다.
1. 왜 ‘프롬프트 압축’이 실력인가?
단순히 글자 수를 줄이는 게 목적이 아닙니다. 효율적인 AI 활용을 위해 압축은 이제 선택이 아닌 필수입니다.
- 비용의 직관성: 토큰은 곧 현금입니다. 클라우드 비용을 아끼려면 말수를 줄여야 합니다.
- 추론의 선명도: 연구에 따르면 3,000토큰이 넘어가면 AI의 집중력이 급격히 떨어집니다. 말을 줄여야 AI가 핵심을 짚습니다.
- 보안의 농도: 불필요한 수식어를 제거하면 민감한 정보가 외부 API로 노출될 빈틈도 줄어듭니다.
2. CompactPrompt의 3단계 다이어트 비법
어떻게 의미는 유지하면서 몸집만 줄일까요? BNY 연구진은 세 가지 정교한 메커니즘을 제안합니다.
① 하드 프롬프트 프루닝 (Hard Prompt Pruning)
가치가 낮은 단어를 과감히 쳐내는 기술입니다. ‘자기 정보량(Self-information)’ 점수를 기준으로 삼습니다.
- 원리: 문맥상 뻔한 단어(예: “은/는/이/가”나 반복되는 수식어)는 점수가 낮습니다. 반대로 핵심 명사는 점수가 높죠.
- 수식: \( I(T) = -\log_{2}p(T) \)
- 특징: 단순히 단어만 지우는 게 아니라, 문장의 구조가 깨지지 않도록 구문 의존성을 분석해서 압축합니다.
② N-gram 약어화 (Textual N-gram Abbreviation)
비즈니스 문서에서 반복되는 긴 문구를 짧은 암호로 치환합니다.
- 잘못된 사례: “2026년도 회계 결산 기준 이자 비용” (매번 반복)
- 올바른 사례: 이를
"이자_26"같은 고유 토큰으로 바꿔서 AI에게 보냅니다. 분석이 끝나고 결과물을 출력할 때 다시 원래 단어로 복원(무손실 압축)하면 그만입니다.
③ 수치 양자화 (Numerical Quantization)
숫자가 많은 금융 데이터의 특성을 살린 방식입니다.
- 방법: 복잡한 소수점 데이터를 정밀도 손실을 최소화하며 정수형 코드로 바꿉니다.
- 효과: 소수점이 길게 늘어진 숫자 하나가 대여섯 개의 토큰을 잡아먹던 것을 1~2개로 확 줄여줍니다.
3. 실전 결과: 똑똑한 놈은 줄여도 똑똑하다
BNY 연구진이 Claude, GPT 등 주요 모델에 적용해본 결과는 꽤 흥미롭습니다. 전체 토큰의 60%를 줄였음에도 성능은 오히려 흥미로운 양상을 보였습니다.
| 모델 | 결과 및 특징 |
|---|---|
| Claude 3.5 Sonnet | 최고의 우등생. 압축 후 정확도가 오히려 최대 10% 상승했습니다. 군더더기가 없으니 본질을 더 잘 꿰뚫어 본 셈입니다. |
| GPT-4o | 안정적인 모범생. 성능 저하 없이 일관된 결과물을 내놓았습니다. |
| Llama-3.3-70B | 예민한 수험생. 적당한 압축에는 강하지만, 너무 공격적으로 줄이면 당황하며 성능이 떨어지는 모습을 보였습니다. |
4. [업무 활용] 바로 써먹는 압축 프롬프트 템플릿
논문의 원리를 실무 프롬프트에 녹여보세요. AI에게 ‘압축 전문가’의 페르소나를 부여하는 것이 핵심입니다.
[압축형 업무 지시 템플릿]
5. 결론: 엔진보다 중요한 건 ‘연료의 순도’입니다
우리는 흔히 “더 큰 모델, 더 긴 컨텍스트”가 정답이라고 생각합니다. 하지만 CompactPrompt는 ‘얼마나 정제된 데이터를 넣느냐’가 비용과 성능을 결정한다는 것을 증명했습니다.
비싼 고성능 엔진에 불순물이 섞인 연료를 넣을 순 없겠죠? 이제는 AI에게 무작정 길게 말하기보다, 어떻게 ‘알짜배기’ 정보만 전달할지 고민해야 할 때입니다. 효율적인 AI 활용은 바로 그 지점에서 시작됩니다.
💡 한 줄 요약: 말 많은 AI보다, 짧은 말에 핵심을 담아 비용을 아끼는 AI가 진짜 ‘일 잘하는 AI’입니다.
