HMAW: ‘프롬프트 복권’ 시대의 종말, AI 회사 만들기
왜 LLM 답변은 2% 부족할까요? ‘프롬프트 복권’ 대신 ‘AI 회사’를 만드는 HMAW
“단계별로 생각하라(Let’s think step-by-step)“는 마법의 주문을 외워봐도 LLM의 답변이 어딘가 만족스럽지 않았던 경험, 다들 있으시죠? 프롬프트 엔지니어링이 LLM의 성능을 끌어내는 핵심 열쇠인 것은 맞지만, 여전히 그 품질이 ‘장인의 감’에 의존하는 경향이 큽니다.
문제는 우리가 만족스러운 답변을 얻기 위해 프롬프트를 조금씩 바꿔가며 ‘프롬프트 복권’을 긁고 있다는 점입니다.
기존의 프롬프트 최적화 전략들의 한계
기존의 프롬프트 최적화 전략들은 명확한 한계를 가졌습니다.
특정 작업(예: 수학)에는 뛰어나지만, 다른 작업에 적용하면 효과가 떨어집니다. (범용성 부족)
훈련용 데이터셋에만 과적합되어, 새로운 시나리오에서는 성능이 떨어집니다.
사람이 만든 예시가 포괄하지 못하는 시나리오가 반드시 존재합니다.
결국, 인간의 개입이 필요하거나, 훈련 비용이 들거나, 특정 작업에만 한정된다는 공통적인 문제가 있었죠.
하지만 만약 LLM이 스스로, 어떤 작업이든, 훈련 없이도, 사용자의 의도에 맞게 최적의 프롬프트를 설계할 수 있다면 어떨까요?
HMAW: LLM에게 ‘AI 회사’를 맡기다
최근 호주 국립대학과 Cisco Research 연구진은 이 문제를 해결하기 위해 LLM에게 ‘자유’ 대신 ‘계층적 책임’을 부여하는 HMAW (계층적 다중 에이전트 워크플로우)를 제안했습니다.
핵심 아이디어는 간단합니다. LLM에게 복잡한 작업을 통째로 맡기는 대신, 잘 조직된 ‘AI 회사’를 만들어 업무를 분담시키는 겁니다.
이 AI 회사는 실제 기업처럼 CEO → 관리자(Manager) → 실무자(Worker)로 이어지는 3단계 계층 구조를 가집니다.
사용자의 뭉툭한 초기 질문이 입력되면, HMAW는 이 질문을 곧바로 실무자에게 던지지 않습니다. 대신 CEO부터 시작하는 이 계층 구조를 통과시키며 프롬프트를 정교하게 다듬어 나갑니다.
HMAW의 3계층 구조
(전략 수립)
(실행 계획)
(최종 응답)
각 ‘직원’이 어떻게 사용자의 모호한 질문을 날카로운 프롬프트로 바꾸는지 살펴보겠습니다.
1단계: CEO (최고 경영자) – “전략적 방향을 설정하라”
CEO는 사용자의 초기 쿼리를 받습니다. (예: “DNA 염기서열 숙제를 받았는데, 초보자라 뭘 찾아야 할지 모르겠어요.“)
CEO의 임무는 최종 답변을 내놓는 것이 아닙니다. 오직 하나, “관리자(Manager)를 위한 명확한 지시사항”을 생성하는 것입니다. CEO는 “우리가 이 사용자에게 어떤 가치를 제공해야 하는가?”라는 높은 수준의 전략을 수립합니다.
“이 사용자는 유전학 초보자다. 복잡한 용어 대신 단순화된 설명과 단계별 접근 방식이 필요하다. ‘보존된 영역’의 중요성을 강조하고 명확한 식별 프로세스를 제공해야 한다.”
2단계: 관리자 (중간 관리자) – “전략을 실행 계획으로 변환하라”
관리자는 두 가지 정보를 받습니다.
- CEO가 내린 전략적 지시
- 사용자의 ‘원본’ 쿼리 (이 부분이 아주 중요합니다)
관리자의 역할은 CEO의 전략적 방향을 “실무자(Worker)가 즉시 실행할 수 있는 구체적인 행동 지침”으로 변환하는 것입니다. CEO가 ‘무엇을(What)‘과 ‘왜(Why)‘에 집중했다면, 관리자는 ‘어떻게(How)‘에 집중합니다.
“좋아, CEO의 지시는 ‘초보자 맞춤형, 단계별 가이드’군. 원본 쿼리를 보니 ‘숙제’라는 목표가 있네. 그렇다면 Worker에게 이렇게 지시해야겠어.
✓ 기본적인 소개로 시작…
✓ ‘보존된 영역’을 정의하고 왜 중요한지 설명…
✓ 간단한 단계별 식별 프로세스 제공 (예시 포함)…
✓ 사용자가 추가 질문하도록 격려…”
3단계: 실무자 (최종 응답 생성) – “가장 완벽한 결과물을 전달하라”
드디어 실무자가 나설 차례입니다. 실무자 역시 두 가지 정보를 받습니다.
- 관리자가 작성한 세부 실행 지침
- 사용자의 ‘원본‘ 쿼리
이 시점에서 실무자가 받은 지침(MP2)은 더 이상 사용자의 모호한 질문이 아닙니다. “초보자 수준에 맞춰”, “단계별로”, “중요성을 강조하며”, “예시를 포함하고”, “친절한 어조로” 답변해야 한다는 구체적인 제약 조건으로 가득 찬 ‘최적화된 프롬프트’입니다.
실무자는 이 완벽한 가이드라인을 바탕으로 사용자의 초기 쿼리에 대한 최종 황금 응답을 생성합니다.
실무자의 최종 응답: “안녕하세요! 유전학 숙제를 기꺼이 도와드릴게요. 기본부터 시작해 보죠: DNA는… 자, 이제 ‘보존된 영역’에 대해 이야기해 봅시다. … 다음은 식별하는 간단한 단계별 프로세스입니다. 1. … 2. … 3. … 4. … 도움이 되길 바랍니다!”
HMAW가 기존 방식보다 뛰어난 3가지 이유
HMAW가 강력한 성능을 발휘하는 데는 몇 가지 핵심적인 설계 철학이 있습니다.
이유 1: 훈련이 필요 없는 ‘제로샷(Zero-Shot)’ 및 ‘작업 무관성’
HMAW의 가장 큰 장점은 훈련이 필요 없다는 것입니다. 기존 방식들처럼 특정 작업에 대한 훈련 세트가 필요 없습니다.
이는 HMAW가 ‘작업 무관적(task-agnostic)‘임을 의미합니다. 수학 문제, 코딩, 대화, 교육, 일반 질의응답 등 벤치마크 전반에 걸쳐 일관된 성능 향상을 보여줍니다. 특정 작업에 과적합되지 않고, ‘좋은 프롬프트란 무엇인가‘라는 메타(meta) 작업을 계층적으로 수행하기 때문입니다.
이유 2: 원본 의도를 보존하는 ‘스킵 연결(Skip Connections)’
HMAW의 구조에서 가장 흥미로운 부분입니다. 앞서 보셨듯이, 관리자와 실무자는 상사의 지시뿐만 아니라 사용자의 ‘원본 쿼리‘를 직접 입력받습니다.
이 ‘스킵 연결‘은 시스템의 안정성을 보장하는 매우 중요한 ‘안전장치’입니다.
만약 CEO나 관리자가 사용자의 의도를 잘못 해석하거나 지시 과정에서 세부 사항을 누락하더라도, 하위 계층이 사용자의 원본 쿼리를 직접 참조함으로써 핵심 정보가 왜곡되는 것을 방지합니다.
실제로 연구진이 이 스킵 연결을 제거하는 실험을 해보니 성능이 크게 하락했습니다. 이는 계층적 지시가 방향을 설정하는 데 중요하지만, 원본 쿼리에 담긴 사용자의 구체적인 의도를 잃지 않는 것이 최종 품질에 치명적임을 증명합니다. (상사의 방향성만큼이나 고객의 원본 요청이 중요하다는 뜻이죠. 😉)
이유 3: 최적의 복잡성, ‘3계층 구조’
“계층이 많을수록 좋을까?” 싶을 수 있습니다.
연구진이 계층을 1개부터 6개까지 늘려보는 실험을 진행했습니다. 결과는 흥미로웠습니다.
| 계층 수 | 성능 평가 |
|---|---|
| 1~2개 계층 | 기본 수준의 성능 |
| 3개 계층 (최적) | 월등히 높은 성능 |
| 4개, 5개, 6개 계층 | 성능 향상 없음, 오히려 하락 |
1~2개 계층보다 3개 계층(CEO → 관리자 → 실무자)의 성능이 월등히 높았습니다. 하지만 3개 계층을 넘어 4, 5, 6개 계층으로 늘리자 성능은 더 이상 향상되지 않고 오히려 하락했습니다.
이는 ‘CEO-관리자-실무자‘의 3계층 구조가 시스템의 복잡성과 효과성 사이의 ‘최적의 균형점’임을 시사합니다. 너무 단순하면 쿼리를 정교하게 다듬지 못하고, 너무 복잡하면 지시가 왜곡될 수 있습니다.
결론: ‘워크플로우 엔지니어링’의 시작
HMAW는 ‘프롬프트 없음‘ 대비 5개 데이터셋에서 평균 30.7%라는 엄청난 성능 향상을 달성했으며, 기존의 최첨단(SOTA) 프롬프트 최적화 방법들보다도 높은 성능을 기록했습니다.
물론 한계는 있습니다. 한 번이 아닌 3단계의 추론을 거치기 때문에, ‘프롬프트 없음‘ 대비 추론 시간이 증가합니다. 하지만 연구진은 이러한 추가 비용을 상쇄하고도 남을 만큼의 압도적인 작업 성능 향상을 얻을 수 있다고 주장합니다.
HMAW의 등장은 우리가 더 이상 ‘마법의 주문‘을 찾는 ‘프롬프트 엔지니어링’에 집착하는 시대를 지나, LLM 에이전트들이 ‘어떻게 협력하도록 만들 것인가‘라는 프로세스를 설계하는 ‘워크플로우 엔지니어링’의 시대로 나아가고 있음을 보여줍니다.
혹시 여러분의 LLM 애플리케이션이 기대에 미치지 못한다면, 실무자(Worker) LLM에게 CEO가 해야 할 전략적 고민까지 전부 맡기고 있지는 않았는지 되돌아볼 때입니다.
