BPO(Black-Box Prompt Optimization)란? LLM 성능을 높이는 프롬프트 최적화 전략

모델 파라미터 수정 없이, 오직 프롬프트 최적화만으로 LLM 성능을 극대화하는 혁신적 접근법.

최근 기업들의 LLM 도입 열풍이 거셉니다. 하지만 현장에서 마주하는 현실은 냉혹하죠. 가장 큰 문제는 ‘인간의 의도’와 ‘AI의 해석’ 사이의 괴리입니다. 사용자는 대충 말하는데, AI는 그 속뜻을 몰라 엉뚱한 답을 내놓는 상황이 반복됩니다.

이를 해결하기 위해 흔히 RLHF(인간 피드백 기반 강화학습)나 DPO 같은 파인튜닝을 떠올립니다. 하지만 여기엔 세 가지 명확한 한계가 있습니다.

여기서 발상의 전환이 필요합니다. “모델의 뇌를 수술할 수 없다면, 입력되는 말을 통역해주면 어떨까?” 칭화대 연구진이 내놓은 BPO(Black-Box Prompt Optimization)가 바로 그 해결책입니다.

💡 BPO: 모델 학습 없는 ‘자동 프롬프트 최적화’

Table of Contents 숨기기

BPO를 한 문장으로 정의하면 ‘인간의 언어를 LLM이 가장 좋아하는 언어로 번역해주는 기술’입니다.

마치 악필인 사람의 글씨를 명필로 옮겨 적어 전달하는 서기 역할을 하는 셈입니다. 모델 내부를 수정하지 않으니, API 형태의 폐쇄형 모델에도 즉시 적용 가능하다는 것이 압도적인 장점입니다.

BPO는 ‘어떻게 말해야 AI가 좋아하는지’를 스스로 학습합니다. 과정은 논리적이고 간결합니다.

데이터 수집: 같은 질문에 대한 ‘좋은 답변’과 ‘나쁜 답변’ 쌍을 모읍니다.
최적화 가이드 생성: GPT-4 같은 고성능 모델에게 묻습니다. “나쁜 답변 대신 좋은 답변이 나오게 하려면, 처음에 지시를 어떻게 내렸어야 했을까?” 이를 통해 약 14,000개의 ‘원본-최적화 프롬프트’ 쌍을 만듭니다.
경량 모델 학습: 이 데이터를 Llama2-7b 같은 가벼운 모델에 학습시킵니다. 이제 이 작은 모델이 ‘프롬프트 최적화 전담 통역사’가 됩니다.

BPO는 무작정 문장을 길게 만드는 게 아닙니다. 다음과 같은 명확한 전략을 사용합니다.

결과는 수치로 증명됩니다.

성능의 수직 상승: BPO를 거친 프롬프트를 썼을 때, GPT-4는 10.1%, Claude-2는 8.8%의 승률 상승을 보였습니다.
다윗과 골리앗: BPO로 최적화된 13B(작은 모델)가 최적화되지 않은 70B(거대 모델)보다 더 나은 답변을 내놓기도 했습니다. 효율성 측면에서 엄청난 이득입니다.
시너지 효과: 이미 학습(DPO 등)이 잘 된 모델에 BPO까지 더하면 승률이 30% 가까이 추가로 상승합니다. 보완재로서의 가치가 충분하다는 뜻입니다.

AI 도입의 핵심은 결국 비용 대비 성능(ROI)입니다. 굳이 비싼 돈 들여 모델을 새로 학습시킬 필요가 없습니다. 리소스가 부족하거나 외부 API 모델을 써야 하는 상황이라면, BPO는 가장 현실적이고 영리한 대안이 될 것입니다.

사용자가 대충 던진 질문도 찰떡같이 알아듣는 시스템, BPO를 통해 구축해 보시는 건 어떨까요?