OPRO란? 구글 딥마인드의 자동 프롬프트 최적화 기술
“단계별로 생각해봐”보다 뛰어난 주문, AI가 스스로 찾았습니다 (OPRO 심층 분석)
우리는 그동안 더 좋은 AI 답변을 얻기 위해 ‘마법의 주문’을 찾아 헤맸습니다. “친절하게 설명해 줘”
라고 부탁해 보거나, “단계별로 생각하기(Let’s think step by step)”
같은 유명한 프롬프트를 일단 붙여넣고 보는 식이었죠.
솔직히 말해볼까요? 이건 ‘엔지니어링’이라기보다, 잘 통하길 바라는 ‘기우제’에 가까웠습니다.
그런데 만약 AI가 스스로 가장 강력한 ‘마법 주문’을 찾아내도록 만들 수 있다면 어떨까요?
구글 딥마인드의 OPRO (Optimization by PROmpting)가 바로 이 질문에 대한 답입니다. OPRO는 LLM을 단순한 답변자가 아니라, 스스로를 개선하는 ‘최적화 전문가’로 활용하는 혁신적인 접근 방식입니다. 관련 논문에서 자세한 내용을 확인할 수 있습니다.
이 글에서는 OPRO가 정확히 무엇인지, 어떻게 작동하는지, 그리고 왜 이것이 프롬프트 엔지니어링의 미래인지 명쾌하게 정리해 드립니다.
1. OPRO란 무엇인가? (LLM이 최적화 전문가가 되다)
OPRO, 즉 ‘프롬프팅을 통한 최적화’는 자연어 명령 하나로 복잡한 최적화 과정을 수행하는 기술입니다.
기존의 최적화 방식은 복잡했습니다. 복잡한 수학 공식을 쓰거나, 문제마다 알고리즘을 따로 설계해야 했죠. OPRO는 이 모든 것을 간단한 ‘대화’로 해결합니다.
이 과정을 ‘더 맛있는 닭강정 소스 만들기’에 비유해 보겠습니다.
“일단 ‘기본 닭강정 소스’ 레시피(초기 프롬프트)를 줍니다.”
AI(요리사)에게 “이것보다 더 맛있는 소스 레시피를 제안해 봐”라고 합니다. AI가 ‘고추장 1스푼 추가’ 레시피(새 프롬프트)를 제안합니다.
그 레시피로 만든 소스를 평가하고 점수를 줍니다. (예: “맛 점수: 63점”)
AI에게 기존 레시피와 점수 목록을 모두 보여주며 말합니다. “지금까지 만든 레시피와 점수 목록이야. (‘기본’: 61점, ‘고추장 1스푼’: 63점). 이것들보다 더 높은 점수를 받을 새 레시피를 제안해 봐.”
AI는 이 ‘경험 데이터(최적화 궤적)’를 보고 어떤 시도가 성공했는지 학습하며, 점점 더 완벽한 ‘황금 레시피’를 향해 나아갑니다.
2. OPRO의 심장: ‘메타-프롬프트(Meta-Prompt)’
OPRO를 작동시키는 핵심 열쇠는 ‘메타-프롬프트(Meta-Prompt)‘입니다. ‘메타’라는 이름처럼, 이것은 ‘프롬프트를 만들기 위한 프롬프트’입니다.
이 특별한 지령서는 크게 두 부분으로 나뉩니다.
과거의 ‘시도와 점수’ 목록 (경험)
이전 단계에서 테스트한 모든 프롬프트와 그 정확도 점수를 그대로 보여줍니다.
(예: text: '문제를 풀어보자', score: 63)
AI는 “아, ‘문제를 풀자’는 63점이구나”라고 학습합니다.
우리가 풀고 싶은 ‘실제 문제’ (과제)
AI가 앞으로 해결해야 할 문제의 예시(예: 수학 문제)를 보여주고, 프롬프트가 들어갈 자리를 <INS> 표시로 비워둡니다.
(예: Q: [수학 문제] A: <INS>)
그리고 AI에게 명확히 지시합니다.
“이 <INS>에 들어갈 새 프롬프트를 만들어줘. 단, 이전 목록에 있는 것들보다 점수가 더 높아야 해.”
LLM은 이 두 정보를 바탕으로 더 높은 점수를 얻을 만한 새로운 ‘주문’을 창조해냅니다.
3. OPRO는 프롬프트만 최적화할까? (아닙니다)
OPRO의 흥미로운 점은, 이 기술이 단순히 ‘글(프롬프트)’에만 국한되지 않는다는 것입니다. 연구팀은 OPRO가 고전적인 수학 최적화 문제도 풀 수 있는지 실험했습니다.
결과는 놀라웠습니다.
선형 회귀
AI에게 (w, b) 값과 오차(점수)를 계속 보여주며 “오차가 더 낮은 (w, b) 쌍을 제안해 봐”라고 요청하자, 정답에 근접했습니다.
외판원 문제 (TSP)
여러 도시 경로와 ‘총 거리(점수)’를 보여주자, 기존 알고리즘만큼 (때로는 더 나은) 효율적인 경로를 찾아냈습니다.
이것이 시사하는 바는 명확합니다. OPRO는 단순한 텍스트 생성기가 아니라, 피드백(점수)을 기반으로 더 나은 해결책을 탐색하는 범용 ‘최적화 엔진’으로 작동할 수 있다는 뜻입니다.
4. 하이라이트: AI, 인간 프롬프트 엔지니어를 이기다
OPRO의 진짜 실력은 본업인 ‘프롬프트 최적화’에서 드러났습니다. 연구팀은 수학 문제(GSM8K) 벤치마크로 실험을 진행했습니다.
인간의 베스트 프롬프트
인간이 고안한 가장 유명한 프롬프트인 “Let’s think step by step.” (단계별로 생각해보자)의 정확도는 71.8%였습니다.
OPRO의 최적화 프롬프트
OPRO는 “Let’s solve the problem.” (60.8%)이라는 평범한 프롬프트에서 시작했습니다.
수십, 수백 번의 ‘제안→평가→반복’을 거친 후, 107번째 단계에서 OPRO가 찾아낸 최고의 프롬프트는 이것이었습니다.
“Take a deep breath and work on this problem step-by-step.”
(심호흡을 하고 이 문제를 단계별로 풀어보세요.)
이 프롬프트가 달성한 정확도는 80.2%였습니다. 인간 최고 기록보다 8% 이상 높은 수치입니다.
더 복잡한 추론 벤치마크(BBH)에서는 OPRO가 만든 프롬프트가 기존 프롬프트 대비 성능을 최대 50%까지 향상시켰습니다.
AI는 ‘단계별로 생각’하는 것을 넘어 ‘심호흡’을 하는 전략까지 스스로 학습해낸 것입니다.
5. OPRO가 우리에게 시사하는 것
OPRO의 등장은 프롬프트 엔지니어링의 패러다임을 바꿉니다.
‘노가다’의 자동화
이제 우리는 ‘최고의 프롬프트’를 찾기 위해 밤샘 테스트를 하는 대신, ‘최고의 프롬프트를 찾는 방법(메타-프롬프트)’을 설계하는 더 상위 레벨의 작업을 하게 될 것입니다.
프롬프트 민감도 문제 해결
“‘친절하게’라고 썼을 때와 ‘상세하게’라고 썼을 때 결과가 왜 다를까?”라는 민감성 문제를 OPRO는 수백 번의 시도를 통해 정면으로 돌파합니다.
LLM의 역할 변화
LLM은 이제 단순한 ‘비서’가 아니라, 스스로 문제를 정의하고 개선점을 찾아내는 ‘최적화 파트너‘로 격상됩니다.
물론 OPRO도 만능은 아닙니다. 최적화 과정 자체가 많은 비용(API 호출)을 유발할 수 있습니다. 하지만 방향은 명확합니다.
AI의 미래는 자동화된 개선에 있습니다
미래의 우리는 AI에게 “이거 해줘”라고 말하는 대신, “더 잘할 수 있는 방법을 스스로 찾아봐”라고 말하게 될 것입니다.
OPRO는 그 자동화된 AI 미래의 시작을 알리는 신호탄입니다.
더 많은 AI 인사이트 보기