AI가 인간보다 뛰어난 프롬프트를 만드는 비결 APE (Automatic Prompt Engineer)
AI가 사람보다 프롬프트를 더 잘 쓴다고요?
LLM에게 원하는 답을 얻기 위해 ‘마법의 주문’ 같은 프롬프트를 찾아 헤맨 경험, 다들 있으시죠? 단어 하나, 쉼표 하나를 바꿔가며 최적의 결과물을 얻으려 애쓰는 과정은 상당한 인내심을 요구합니다. 솔직히 말해 ‘노가다’에 가깝죠.
그런데 만약 이 지루하고 비효율적인 작업을 AI가 대신해주고, 심지어 인간 전문가보다 더 나은 프롬프트를 찾아낸다면 어떨까요?
오늘 이야기할 APE(Automatic Prompt Engineer)는 바로 이 질문에 대한 명쾌한 답변입니다. 2023년 ICLR 학회에서 발표된 이 논문은 프롬프트 엔지니어링의 판도를 바꿀 혁신적인 방법론을 제시했죠. 결론부터 말씀드리면, 이제 AI가 프롬프트를 자동으로 생성하고 최적화하는 시대가 열렸습니다.
이 글에서는 APE가 어떤 원리로 작동하며, 얼마나 놀라운 성능을 보여주는지, 그리고 앞으로 우리가 AI와 소통하는 방식을 어떻게 바꿔놓을지 쉽고 명쾌하게 설명해 드리겠습니다.
무엇이 문제였을까요?
LLM은 우리가 자연어로 명령을 내리면 뭐든 해내는 만능 도구처럼 보이지만, 그 성능은 프롬프트의 품질에 따라 천차만별입니다. 마치 성능 좋은 스피커도 어떤 음악을 재생하냐에 따라 소리가 달라지는 것과 같죠.
잘못된 방식은 인간의 직감과 끝없는 반복 실험에만 의존하는 것이었습니다.
- 시간 낭비: 어떤 단어가 모델에게 ‘잘 통하는지’ 명확한 기준 없이 막연하게 시도해야 했습니다.
- 비효율: LLM은 내부 작동 방식을 훤히 들여다볼 수 없는 ‘블랙박스’와 같습니다. 그래서 우리는 어떤 입력(프롬프트)이 최상의 출력으로 이어지는지 알기 어려웠습니다.
결국 지금까지의 프롬프트 엔지니어링은 안갯속에서 목표물을 찾는 것처럼 답답하고 비효율적인 작업이었습니다.
APE는 어떻게 해결할까요?
APE는 프롬프트를 일종의 ‘자연어 프로그램’으로 보고, 최적의 프로그램을 찾아내는 전 과정을 LLM을 통해 자동화합니다. 마치 최고의 요리사를 뽑기 위해 요리 대회를 여는 것과 같죠. APE의 작동 방식은 크게 두 단계로 나뉩니다.
1단계: 후보 프롬프트 생성
우선 APE는 LLM에게 몇 가지 입출력 예시를 보여줍니다. “이런 질문에는 이렇게 답하는 거야”라는 샘플을 몇 개 던져준 뒤, “이 작업을 가장 잘 설명하는 지시문은 뭘까?”라고 되묻는 방식이죠.
이 과정을 통해 LLM은 수십, 수백 개의 다양한 후보 프롬프트를 쏟아냅니다. 마치 대회 참가자들이 각자의 레시피를 제출하는 것과 같습니다.
2단계: 최고 프롬프트 선택
이제 수많은 후보 프롬프트 중 최고의 우승자를 가려낼 차례입니다. APE는 각 후보 프롬프트를 사용해 실제 과제를 수행시켜보고, 그 결과를 점수로 평가합니다.
가장 중요한 평가 기준은 실행 정확도, 즉 ‘얼마나 정답을 잘 맞히는가?’입니다. 모든 후보를 대상으로 이 테스트를 진행하고, 가장 높은 점수를 받은 프롬프트를 최종 우승자로 선정합니다.
간단히 말해, APE는 LLM이 수많은 프롬프트 아이디어를 내게 하고(1단계), 그 아이디어들을 직접 테스트해서 최고의 우승자를 가려내는(2단계) 자동화된 토너먼트인 셈입니다.
인간이 만든 프롬프트보다 앞선 성능
연구진은 24개의 다양한 과제에서 APE의 성능을 인간 프롬프트 엔지니어와 비교했습니다. 결과는 놀라웠습니다.
- 전 종목 석권: APE가 만든 프롬프트는 24개 모든 과제에서 인간이 만든 프롬프트와 동등하거나 더 나은 성능을 보였습니다.
- 평균 점수 완승: 전체 과제의 평균 성능 점수에서 APE(0.810점)는 인간 엔지니어(0.749점)를 큰 차이로 앞질렀습니다.
심지어 더 어려운 과제에서도 APE는 21개 중 17개에서 인간이 만든 프롬프트보다 뛰어난 성능을 입증했습니다.
여기서 끝이 아닙니다
APE의 진정한 가치는 단순히 새로운 프롬프트를 만드는 데 그치지 않습니다. 이미 효과적이라고 알려진 프롬프트를 한 단계 더 발전시키는 최적화 능력에서 드러나죠.
복잡한 추론을 유도하는 프롬프트로 유명한 ‘Zero-Shot-CoT’를 예로 들어보겠습니다.
기존의 최고 프롬프트 (인간 발견):
“Let’s think step by step”
(한 단계씩 차근차근 생각해 보자)
APE가 찾아낸 더 나은 프롬프트:
“Let’s work this out in a step by step way to be sure we have the right answer.”
(정답을 확실히 하기 위해 이 문제를 단계별로 해결해 나가자)
사소한 차이처럼 보이지만, APE가 찾아낸 새로운 프롬프트는 수학 문제 해결 능력 테스트에서 정확도를 78.7%에서 82.0%까지 끌어올렸습니다. 이는 APE가 기존의 성공 공식조차 뛰어넘을 수 있는 강력한 도구임을 증명합니다.
결론: 프롬프트 엔지니어링의 미래
APE의 등장은 프롬프트 엔지니어링이 더 이상 인간의 감과 노동에만 의존하는 영역이 아님을 선언합니다. 우리는 이제 지루한 최적화 작업을 AI에게 맡기고, 더 창의적이고 전략적인 문제 해결에 집중할 수 있게 되었습니다.
물론 APE가 모든 것을 해결해주는 만능 열쇠는 아닙니다. 어떤 예시를 보여줄지, 어떤 기준으로 최고의 프롬프트를 고를지 결정하는 큰 그림을 그리는 것은 여전히 인간의 몫입니다.
APE는 우리의 일자리를 빼앗는 경쟁자가 아니라, 우리의 능력을 증폭시켜주는 최고의 파트너가 될 것입니다. 인간의 통찰력과 AI의 무한한 탐색 능력이 결합될 때, 우리는 비로소 LLM의 진정한 잠재력을 마주하게 될 것입니다.
