Buffer of Thoughts: LLM 성능은 높이고 비용은 88% 줄이는 AI 추론 전략
LLM API 비용이 너무 높은가요? Buffer of Thoughts(BoT)로 비용은 88% 줄이고 성능은 높이세요. CoT, ToT의 한계를 동시에 극복한 차세대 LLM 추론 전략을 완벽 해설합니다.
ChatGPT나 Claude 같은 대형 언어 모델(LLM)을 쓰다 보면 가끔 답답할 때가 있습니다. 일상적인 대화는 기가 막히게 잘하는데, 조금만 복잡한 수학 문제나 다단계 논리 구조를 던져주면 금세 ‘횡설수설(환각)’하기 때문이죠.
이걸 고쳐보겠다고 나온 기존의 기법들은 하나같이 나사가 하나씩 빠져 있었습니다. 정확도를 챙기면 지갑이 털리고(API 비용), 비용을 아끼면 지능이 떨어지는 딜레마에 빠져 있었거든요.
오늘은 이 문제를 아주 우아하게 해결한 방법론, ‘Buffer of Thoughts(이하 BoT)’를 소개합니다. 베이징대와 스탠퍼드 연구진이 제안한 이 방식이 왜 ‘게임 체인저’인지, 핵심만 짚어드릴게요.1. 기존 방식의 한계: “무식하게 열심히” 하거나, “대충” 하거나
우리가 그동안 LLM의 머리를 빌려 쓰는 방식은 크게 두 가지였습니다. 잘못된 사례와 올바른(?) 고민을 비교해 보시죠.
❌ 잘못된 접근 — Case A: 단일 쿼리(CoT, Few-shot)
방식: “차근차근 생각해 봐”라고 한마디 던지는 식입니다.
문제: 빠르고 싸지만, 문제가 조금만 복잡해지면 금방 한계가 옵니다. 마치 공식도 모르는 학생에게 “차근차근 풀면 풀릴 거야”라고 응원만 하는 격이죠.
⚠️ 기존 정석 — Case B: 다중 쿼리(ToT, GoT)
방식: 수많은 경우의 수를 나무(Tree)나 그래프(Graph) 형태로 다 그려보며 최적의 답을 찾습니다.
문제: 정확도는 높지만, API 호출을 수십 번씩 해야 합니다. 배보다 배꼽이 더 커지는 상황, 즉 ‘돈으로 처바른 성능’이라 실무에 쓰기엔 부담스럽습니다.
핵심 딜레마: 정확도(다중 쿼리) vs 비용(단일 쿼리) — BoT는 이 두 마리 토끼를 동시에 잡습니다.
2. BoT의 핵심: “처음부터 풀지 말고, 족보를 꺼내라”
BoT는 인간이 문제를 푸는 방식을 그대로 모방했습니다. 우리가 수학 문제를 풀 때 매번 피타고라스의 정리를 증명해서 풀진 않죠? 머릿속에 저장된 ‘문제 해결 패턴(템플릿)’을 꺼내서 숫자만 대입할 뿐입니다.
BoT는 LLM에게 이 ‘패턴 저장소’인 메타 버퍼(Meta-buffer)를 달아주었습니다. 작동 원리는 아주 명쾌한 3단계입니다.
1단계 — 문제 증류(Distiller): 재료 손질
질문에서 불필요한 미사여구를 걷어내고, 핵심 변수와 제약 조건만 딱 뽑아냅니다. 노이즈 없는 순수한 문제 구조를 만드는 단계입니다.
2단계 — 생각의 구체화(Instantiation): 레시피 적용
‘메타 버퍼’라는 족보에서 지금 문제와 가장 잘 맞는 해결 템플릿을 찾아옵니다. 그리고 그 틀에 맞춰 추론을 진행합니다.
3단계 — 버퍼 관리(Manager): 오답 노트 및 비법 전수
새로운 유형의 문제를 아주 잘 풀었다면, 그 과정을 요약해서 족보에 업데이트합니다. 쓰면 쓸수록 똑똑해지는 구조입니다.
3. 얼마나 잘하나? — 성능 비교
데이터는 거짓말을 하지 않습니다. GPT-4를 기준으로 기존 방식들과 비교한 결과입니다.
| 평가 항목 | 기존 방식 대비 향상도 | 특이 사항 |
|---|---|---|
| 수학 게임(Game of 24) | 79.4% 향상 | GPT-4 단독 사용 시보다 압도적 |
| 체스 퍼즐 | 51% 향상 | 복잡한 수 읽기에서 탁월함 |
| 컴퓨팅 비용 | 88% 절감 | ToT 대비 단 12%의 비용만 소요 |
가장 흥미로운 점은 ‘다윗이 골리앗을 이겼다’는 겁니다. 덩치 큰 Llama3-70B 모델보다, BoT를 장착한 작은 모델 Llama3-8B의 성능이 더 좋게 나오기도 했습니다.
무조건 모델이 크다고 장땡이 아닙니다. ‘생각하는 법’이 더 중요하다는 증거입니다.
4. 실무 적용을 위한 Quick Guide
여러분의 프로젝트나 비즈니스에 BoT를 적용하고 싶다면 이렇게 시작해 보세요.
-
도메인 족보 만들기
우리 서비스에서 자주 발생하는 문제 패턴(CS 응대, 코드 검수 등)을 6~10개 정도의 템플릿으로 정리해 둡니다. -
전처리 봇 배치
사용자의 질문을 받자마자 답변하지 마세요."이 질문에서 핵심 조건 3가지만 뽑아줘"라고 먼저 시키는 ‘증류’ 과정을 거치면 정확도가 비약적으로 올라갑니다. -
템플릿 매핑
추출된 조건에 가장 적합한 족보를 붙여서 최종 답변을 생성하게 만드세요.
결론: 효율이 곧 실력인 시대
BoT는 LLM이 매번 ‘맨땅에 헤딩’하며 토큰을 낭비하는 비효율을 끝냈습니다. 지혜로운 도서관에서 정답의 설계도를 미리 꺼내 쓰는 이 방식은 비용과 성능, 두 마리 토끼를 다 잡아야 하는 개발자와 기획자에게 최고의 선택지가 될 것입니다.
혹시 지금 운영 중인 서비스의 API 비용이 너무 높거나, 복잡한 추론 문제로 골머리를 앓고 계신가요? 그렇다면 이제 LLM에게 ‘생각의 버퍼’를 선물할 때입니다.
