LLaMEA: GPT-4가 인간을 이긴 알고리즘 자동 설계

GPT-4가 스스로 ‘진화’해서 인간 최고 전문가를 이겼습니다. LLaMEA 이야기입니다.

지금까지 새로운 알고리즘을 설계하는 일은 소수의 똑똑한 전문가들만 할 수 있는 영역이었습니다. 자연에서 영감을 받아 유전 알고리즘(Genetic Algorithms)이나 입자 군집 최적화(Particle Swarm Optimization) 같은 멋진 방법론이 탄생하기도 했죠.

하지만 이 ‘전문가 주도’ 방식엔 명확한 한계가 있었습니다. 바로 ‘사람’이 직접 해야 한다는 병목 현상입니다.

비유하자면, 수백 명의 셰프(전문가)가 저마다 ‘최고의 레시피(알고리즘)’라고 주장하며 500가지가 넘는 요리를 내놨지만, 막상 먹어보면 대부분 비슷비슷하거나(기존 알고리즘과 큰 차이 없음) 제대로 된 평가조차 받지 못한(벤치마크 부족) 셈입니다.

만약 이 ‘셰프’, 즉 ‘발명가’의 역할을 자동화할 수 있다면 어떨까요? 단순히 레시피를 따라 하는(코드 완성) 수준이 아니라, 스스로 새로운 요리법을 창조하고, 맛을 보고(테스트), 실패로부터 배워 ‘진화’하는 시스템 말입니다.

이것은 더 이상 공상 과학이 아닙니다. Niki van Stein과 Thomas Bäck이 발표한 LLaMEA (Large Language Model Evolutionary Algorithm) 라는 최신 프레임워크가 바로 이 일을 해냅니다.

LLaMEA는 GPT-4 같은 대형 언어 모델(LLM)을 ‘두뇌’로 사용하여, 현존하는 최고 수준의 알고리즘을 능가하는 새로운 메타휴리스틱 알고리즘을 자동으로 생성해냈습니다.

이 글에서는 LLaMEA가 정확히 무엇이며, 어떻게 작동하는지, 그리고 이 기술이 알고리즘 설계의 미래를 어떻게 바꾸고 있는지 심층적으로 분석합니다.

LLaMEA란 무엇인가: 코드의 ‘다윈’ 진화 시스템

Table of Contents 숨기기

LLaMEA란 무엇인가: 코드의 ‘다윈’ 진화 시스템

LLaMEA는 어떻게 작동하는가: (1+1) 진화 루프

1단계: 초기화 (일단 시작해!)

2단계: 합성 및 평가 (만들고, 돌려봐!)

3단계: 피드백 및 변이 (어디가 문제인지 알려줄게, 고쳐봐!)

4단계: 선택 (더 나은 놈만 살아남는다!)

LLaMEA의 놀라운 성과: 현존 최강(SOTA)을 뛰어넘다

LLaMEA가 발견한 ‘챔피언’ 알고리즘: ERADS

자동화된 설계의 미래와 명확한 한계

1. 일반화의 한계 (다른 문제엔 약하다)

2. 비용과 안정성

결론: 알고리즘 발명가를 자동화하다

AI 혁신 기술의 최신 트렌드를 놓치지 마세요

LLaMEA를 한마디로 요약하면, LLM(GPT-4)에게 ‘알고리즘 설계자’ 역할을 맡기고, ‘적자생존’의 진화 방식을 결합한 시스템입니다.

조금 더 쉽게 비유해 볼까요?

기존 방식: 셰프 한 명(인간 전문가)이 평생에 걸쳐 레시피 하나를 완성합니다.
LLaMEA 방식: 100명의 셰프(LLM)가 100개의 레시피(알고리즘)를 동시에 만들고, 가장 맛있는(성능 좋은) 레시피만 살아남아 다음 세대의 ‘기본 레시피’가 됩니다. 이 과정을 수백 번 반복하는 겁니다.

LLaMEA는 주어진 작업에 맞춰 알고리즘 코드를 반복적으로 생성하고, 살짝 비틀어보고(돌연변이), 성능 피드백을 기반으로 최고의 알고리즘만 선택(select)합니다. 이 과정에 광범위한 사전 전문 지식이 거의 필요 없습니다.

LLaMEA는 어떻게 작동하는가: (1+1) 진화 루프

LLaMEA의 핵심 전략은 ‘(1+1)-LLaMEA‘라고 불리는 진화 전략입니다. 이름은 거창하지만 원리는 간단합니다.

‘하나의 부모(Parent) 알고리즘’이 ‘하나의 자손(Child) 알고리즘’을 낳고, 둘을 경쟁시켜(평가) 더 나은 쪽만 살아남아 다음 세대의 부모가 되는 방식입니다.

이 모든 과정이 LLM과의 자동화된 대화(프롬프트)로 이루어집니다. 4단계로 나눠보죠.

1단계: 초기화 (일단 시작해!)

먼저, 시스템은 LLM에게 ‘작업 프롬프트(S)’를 줍니다. 여기에는 ‘이런 문제를 풀어야 해(블랙박스 최적화)’라는 목표, ‘답은 이런 형식으로 줘’라는 형식, 그리고 ‘참고해 봐’라는 의미의 아주 간단한 예시 코드(예: 무작위 탐색 알고리즘)가 포함됩니다.

이 예시 코드는 LLM이 헤매지 않고 오류 없는 코드를 만들도록 돕는 ‘시드(Seed)’ 역할을 합니다.

2단계: 합성 및 평가 (만들고, 돌려봐!)

LLM이 프롬프트(S)를 보고 첫 번째 ‘부모’ 알고리즘(a₀)의 Python 코드를 생성합니다. LLaMEA 시스템은 이 코드를 즉시 IOHprofiler라는 자동화된 벤치마킹 도구로 실행합니다.

알고리즘의 성능은 BBOB라는 표준화된 24개의 테스트 무대에서 평가되고, AOCC라는 지표를 통해 ‘단일 점수’로 요약됩니다. (쉽게 말해, ‘알고리즘 수능 점수’가 나오는 겁니다.)

3단계: 피드백 및 변이 (어디가 문제인지 알려줄게, 고쳐봐!)

이제 LLaMEA의 가장 흥미로운 부분이 시작됩니다. 시스템은 LLM에게 ‘피드백 프롬프트(F)’를 생성하여 보냅니다. 여기엔 아주 구체적인 지시가 들어갑니다.

목표 상기: “원래 우리가 하려던 게 이거였지?” (기본 작업 프롬프트 S)
과거 이력: “이전에 만들었던 것들은 점수가 이랬어.” (이전 시도 목록)
현재 상태: “지금 네가 만든 ‘부모’ 코드(a₀)는 이렇고, 수능 점수(AOCC)는 00점이야. 실행하다 이런 오류도 났었어.” (현재 최고 알고리즘 코드, 성능, 오류 정보)
핵심 지시: “이걸 ‘개선(refine)’하든, 아예 ‘재설계(redesign)’하든 해서 더 좋게 만들어봐.”

4단계: 선택 (더 나은 놈만 살아남는다!)

LLM이 이 피드백을 받고 ‘자손’ 알고리즘(a₁)을 생성합니다. 이 새로운 알고리즘도 2단계와 동일하게 수능(평가)을 봅니다.

자손 승리: 만약 자손의 점수가 부모보다 높거나 같으면, 자손이 새로운 부모가 되어 다음 루프를 이어갑니다.
부모 승리: 그렇지 않으면(자손이 더 못하면), 부모가 살아남습니다.

이 루프를 100회 반복하면서, LLM은 점진적으로 더 나은 해결책을 향해 ‘진화’합니다. 이 과정에서 LLM은 하이퍼파라미터를 미세 조정하는 작은 변이(mutation)를 일으키기도 하고, 아예 새로운 접근 방식을 시도하는 큰 변이(redesign)를 일으키기도 합니다.

LLaMEA의 놀라운 성과: 현존 최강(SOTA)을 뛰어넘다

그래서 결과는 어땠을까요? LLaMEA가 생성한 알고리즘은 현존하는 최고 수준(SOTA)의 알고리즘, 즉 ‘알고리즘계의 챔피언’이라 불리는 CMA-ES와 DE(Differential Evolution)와 정면으로 붙었습니다.

결과는 놀라웠습니다. 5차원(d=5) BBOB 벤치마크 테스트에서, GPT-4를 두뇌로 쓴 LLaMEA( (1+1)-GPT4-ES 설정)가 기존 챔피언들(CMA-ES, DE)을 명백하게 능가했습니다.

논문의 데이터(EAF 곡선)는 LLaMEA가 생성한 알고리즘(ERADS)이 다른 모든 기준 알고리즘보다 더 빠르고 더 확실하게 최적의 해를 찾아내는 것을 보여줍니다.

LLaMEA가 발견한 ‘챔피언’ 알고리즘: ERADS

LLaMEA가 100번의 진화 끝에 찾아낸 챔피언 알고리즘은 “ERADS_QuantumFluxUltraRefined” 라는 거창한 이름을 가졌습니다.

이름에 포함된 ‘QuantumFlux’는 GPT-4가 만들어낸 일종의 ‘허세(hallucination)’로 보이며, 실제 알고리즘의 작동 방식과는 큰 관련이 없었습니다.

하지만 이름과 달리 그 내용은 매우 견고한 Differential Evolution(DE)의 새로운 변종이었습니다.

더 놀라운 점은, ‘ERADS’가 기존의 JADE와 같은 DE 변종들과 유사점을 가졌지만, LLaMEA는 ‘메모리 팩터(memory factor)와 메모리 벡터’를 활용하여 파라미터 적응을 결합하는, 학계에 보고된 적 없는 새로운 방식을 도입했다는 것입니다.

즉, LLM이 기존 알고리즘을 모방한 것이 아니라, 성능 향상을 위해 독자적인 메커니즘을 ‘발명’한 것입니다.

자동화된 설계의 미래와 명확한 한계

LLaMEA는 LLM이 단순한 코드 생성기를 넘어, 복잡한 문제 해결을 위한 ‘창의적인 파트너’가 될 수 있음을 증명했습니다. 이는 수백 개의 ‘자연 영감’ 알고리즘을 수동으로 설계하던 기존의 비효율적인 패러다임을 완전히 대체할 잠재력을 보여줍니다.

물론 LLaMEA도 완벽하지는 않습니다. 한계는 명확했습니다.

1. 일반화의 한계 (다른 문제엔 약하다)

ERADS는 5차원 문제에서는 챔피언이었지만, 문제가 더 복잡해지자(10차원, 20차원) 표준 CMA-ES 알고리즘에 다시 선두를 내주었습니다.

잘못된 해석: “LLaMEA가 실패했네.”

올바른 해석: “LLaMEA가 ‘5차원 문제’라는 주어진 목표에 너무나 충실하게, 고도로 ‘특화(과적합)’된 알고리즘을 만든 것입니다.”

2. 비용과 안정성

LLM API 호출 비용과 동적으로 생성된 코드의 실행 안정성은 여전히 해결해야 할 과제입니다.

결론: 알고리즘 발명가를 자동화하다

LLaMEA 프레임워크는 알고리즘 설계 분야의 게임 체인저입니다. 이는 LLM을 ‘진화의 두뇌’로 사용하여, 인간 전문가의 수동적인 설계를 뛰어넘는 고성능 알고리즘을 자동으로 생성할 수 있음을 입증했습니다.

비록 생성된 알고리즘이 특정 문제에 과적합되는 경향을 보였지만, 이는 ‘실패’가 아니라 LLaMEA가 주어진 목표에 얼마나 충실하게 최적화를 수행했는지를 보여주는 증거입니다.

LLaMEA는 우리가 알고리즘을 개발하는 방식의 근본적인 변화를 예고합니다. 미래의 알고리즘 설계는 더 이상 인간의 직관에만 의존하는 것이 아니라, 인간이 설정한 ‘목표’를 달성하기 위해 끊임없이 진화하는 LLM과의 협업을 통해 이루어질 것입니다.

AI 혁신 기술의 최신 트렌드를 놓치지 마세요

LLM 기반 자동화, 프롬프트 엔지니어링, AI 에이전트의 미래까지. ProB AI 연구소에서 최신 AI 연구를 심층 분석해 드립니다.

더 알아보기

LLaMEA: GPT-4가 인간을 이긴 알고리즘 자동 설계

LLaMEA란 무엇인가: 코드의 ‘다윈’ 진화 시스템