비용 95% 절감하는 AI 에이전트 최적화 프레임워크 AFLOW 분석

프롬프트를 잘 써서 AI 성능을 쥐어짜던 시절은 끝났습니다. 이제는 AI가 스스로 파이썬 코드를 짜고, 그 코드를 고쳐가며 성능을 올리는 시대입니다.

ICLR 2025에서 주목받은 에이전트 최적화 프레임워크 ‘AFLOW’의 핵심 원리를 복잡한 IT 학술어 대신 직관적인 개념 중심으로 정리합니다.

에이전트를 구성하는 3가지 뼈대

Table of Contents 숨기기

AFLOW를 이해하는 가장 쉬운 방법은 AI 에이전트 구축을 ‘제품 자동 조립 공장’으로 생각하는 것입니다.

LLM이 실제로 추론을 수행하는 단일 작업대입니다. 어떤 모델을 쓸지, 프롬프트는 무엇인지, 출력 형식을 JSON으로 할지 마크다운으로 할지 결정하는 설정값의 모음입니다.

작업대와 작업대를 잇는 연결선입니다. AFLOW는 이 연결선을 단순한 흐름도가 아닌 파이썬 코드 자체로 구현합니다. 조건문(if-else)이나 반복문(loop)을 그대로 사용하기 때문에 상황에 따른 유연한 경로 제어가 가능합니다.

현업에서 자주 쓰는 검증된 작업 패턴을 미리 만들어 둔 기능 블록입니다. 여러 답변을 모아 다수결로 판정하는 ‘앙상블 공구’, 코드를 직접 실행해 보고 에러를 잡는 ‘디버깅 공구’ 등이 있습니다.

기존 방식의 한계와 AFLOW의 해결책을 비교하면 차이가 명확합니다.

과거의 모든 수정 시도 이력을 하나의 프롬프트에 무작정 길게 이어 붙입니다. 탐색을 거듭할수록 AI가 읽어야 할 본문(컨텍스트)이 지나치게 길어져 앞 내용을 까먹고, 결국 삼천포로 빠집니다. 업무 인수인계서 내용을 한 페이지에 다 쑤셔 박아 가독성을 망치는 꼴입니다.

모든 시도를 한 줄로 세우지 않고 트리(Tree) 형태로 가지를 치며 저장합니다. 가능성 있는 길만 골라 탐색하는 몬테카를로 트리 탐색(MCTS) 알고리즘을 사용하여 토큰 낭비 없이 정답을 찾아냅니다.

AFLOW가 다음 탐색 방향을 결정할 때 사용하는 소프트 혼합 확률(Soft Mixed Probability) 수식은 다음과 같습니다.

P_mixed(i) = λ · (1/n) + (1−λ) · exp(α·(s_i−s_max)) / Σ_j=1ⁿ exp(α·(s_j−s_max))

이 복잡해 보이는 수식의 본질은 ‘익숙한 맛집 가기’와 ‘새로운 식당 도전하기’의 균형입니다.

우측 항 (확률 기반 집중 탐색): 지금까지 점수(s_i)가 가장 좋았던 성공 경로와 최고 점수(s_max)를 비교하여, 성공 확률이 높은 유망한 경로를 더 집중적으로 파고듭니다. (익숙한 맛집)
좌측 항 (균등 확률 부여): 아무리 실패했거나 아직 가보지 않은 빈 구조라도 최소한의 탐색 확률(1/n)을 보장하여 완전히 새로운 구조적 실험을 시도합니다. (새로운 식당 도전)

이렇게 선택된 코드는 검증 데이터셋에서 5회 반복 실행되어 통계적 검증을 거친 뒤, 성적표를 상위 노드로 역전파하며 끊임없이 진화합니다.

AFLOW의 성능을 수학, 코딩 등 6개 주요 평가 지표로 검증한 결과입니다.

평가 항목	정량적 성과	실무적 의미
정확도 개선	기존 대비 5.7% ~ 19.5% 상승	사람이 짠 프롬프트(CoT)보다 평균 5.7%, 기존 자동화 모델(ADAS)보다 평균 19.5% 높은 정답률을 보입니다.
비용 절감	GPT-4o 대비 4.55% 수준으로 감소	가성비 좋은 소형 모델(DeepSeek 등)에 AFLOW 코드를 얹으면, 기본 상태의 GPT-4o 단일 호출 성능을 앞섭니다. 비용은 95% 이상 절감됩니다.
자율 구조 진화	인간의 가이드 없이 자율 생존	인간이 제공한 오퍼레이터 기능을 의도적으로 전부 제거해도, AI가 스스로 답변을 비교·분석하는 다중 연산 흐름을 독립적으로 짜내어 문제를 해결합니다.

AFLOW를 서비스에 도입하려면 “더 좋은 프롬프트 문장”을 찾는 정적 접근을 버려야 합니다. 파이썬 비동기 프레임워크(asyncio) 환경에서 제어 구조 자체를 모듈화하는 시스템을 짜야 합니다.

LLM API를 호출하고 비용을 기록하는 독립된 클래스(Node)들을 미리 정의합니다.
상위 관리자 역할을 하는 LLM에게 이 노드들을 조립하는 파이썬 __call__ 내부 제어문(Edge) 코드를 직접 작성하도록 권한을 부여합니다.
프롬프트 텍스트 수정이 아닌, 코드를 생성하고 실행하는 인프라 파이프라인을 구축하는 것이 AFLOW 최적화의 본질입니다.

핵심 요약: AFLOW는 “좋은 프롬프트”가 아닌 “좋은 워크플로우 코드”를 AI 스스로 찾아내게 하는 패러다임 전환입니다. 소형 모델 + AFLOW의 조합은 대형 모델 단독 사용 대비 95% 비용 절감과 더 높은 정확도를 동시에 달성합니다.