두 명의 개발자가 AI 에이전트의 '워크플로우 오케스트레이션' 문제를 상징하는 복잡한 데이터 다이어그램을 분석하는 모습
|

AI 에이전트, ‘진짜 일’을 못하는 이유 (WorkflowLLM)

AI 에이전트, ‘진짜 일’을 못하는 이유 (WorkflowLLM) | ProB AI 연구소
두 명의 개발자가 AI 에이전트의 '워크플로우 오케스트레이션' 문제를 상징하는 복잡한 데이터 다이어그램을 분석하는 모습

우리 모두 비슷한 경험이 있습니다

AI 챗봇에게 “휴가 계획 좀 짜줘. 항공편, 호텔, 맛집까지 한 번에 예약해 줘”라고 요청했지만, 결과는 실망스럽습니다. 그럴싸한 ‘목록’은 받지만, 각 단계가 유기적으로 연결되어 실제 실행 가능한 ‘워크플로우(Workflow)’가 아닌 단순 텍스트 나열에 그치기 때문입니다.

이것이 바로 현재 LLM(거대 언어 모델)이 직면한 가장 큰 장벽 중 하나인 ‘워크플로우 오케스트레이션(Workflow Orchestration)’ 문제입니다.

AI 에이전트의 새로운 패러다임: APA

최근 AI 분야의 화두는 단연 ‘에이전트(Agent)’입니다. LLM이 단순히 답하는 것을 넘어, 스스로 계획을 세우고 도구(API)를 사용해 복잡한 작업을 완료하는 ‘에이전트 기반 프로세스 자동화(Agentic Process Automation, APA)’가 차세대 혁명으로 주목받고 있습니다. 이는 단순히 정해진 규칙만 따르던 기존의 ‘로보틱 프로세스 자동화(RPA)’와는 차원이 다른 개념입니다.

하지만 이 혁명은 큰 난관에 부딪혔습니다. GPT-4o와 같은 최신 모델조차 복잡한 워크플로우를 처리하는 데는 명확한 한계를 보이기 때문입니다.

왜일까요? 그리고 이 문제를 해결하기 위해 등장한 WorkflowLLM은 어떻게 GPT-4o보다 뛰어난 성능을 보여줄 수 있었을까요?

1. LLM이 복잡한 작업을 실패하는 진짜 이유

칭화대, 런민대 등이 참여한 연구팀은 최신 LLM들이 왜 실제 워크플로우 자동화에 실패하는지 명확히 짚어냈습니다. 문제는 ‘지능’이 아니라 ‘구조적 복잡성’ 처리 능력에 있었습니다.

❌ 제한된 액션 규모

연구에 따르면, GPT-4가 아무리 똑똑해도 평균적으로 처리할 수 있는 액션(API 호출 등)의 수는 고작 6.1개에 불과했습니다.

하지만 실제 우리가 사용하는 애플리케이션(예: Apple Shortcuts)의 워크플로우는 평균 70.4개의 액션을 포함합니다.

6개와 70개. 이 엄청난 간극이 바로 LLM 에이전트가 현실 세계에서 ‘장난감’처럼 느껴지는 이유입니다.

❌ 단순한 논리 구조

대부분의 LLM은 A 다음 B, B 다음 C 같은 ‘순차적인’ 작업에는 능숙합니다.

하지만 실제 워크플로우는 “만약 A가 참이면 B를 실행하고, 아니면 C를 실행”하는 ‘분기(Branch)’나 “D가 완료될 때까지 A를 반복”하는 ‘루프(Loop)’로 가득 차 있습니다.

Apple Shortcuts의 경우, 평균 2.6개의 중첩된 분기/루프 구조를 가집니다. LLM은 이런 복잡한 논리 흐름을 안정적으로 처리하는 데 매우 취약합니다.

결국, LLM은 복잡하고, 길고, 조건부 논리가 포함된 실제 세계의 문제를 해결할 준비가 되어 있지 않았습니다.

2. 해답은 ‘데이터’에 있었습니다: WorkflowBench의 탄생

연구팀은 “더 큰 모델이 해결책이 아니라, 더 좋은 ‘데이터’가 해결책이다”라는 데이터 중심(Data-Centric) 프레임워크에 집중했습니다.

그래서 LLM에게 ‘워크플로우 오케스트레이션’을 가르치기 위한 전용 교과서, 즉 WorkflowBench라는 대규모 파인튜닝 데이터셋을 구축했습니다.

그 규모는 압도적입니다.

  • 106,763개의 워크플로우 샘플
  • 83개 애플리케이션
  • 1,503개의 고유 API

이 데이터셋이 특별한 이유는 단순히 양이 많아서가 아니라, 데이터를 수집하고 생성한 ‘3단계 파이프라인’에 있습니다.

3. WorkflowBench는 어떻게 만들어졌는가 (3단계)

1단계: ‘진짜 전문가’의 데이터 수집

연구팀은 ‘가짜’ 예시가 아닌, ‘진짜 전문가‘들이 만든 실제 워크플로우를 수집했습니다.

  • 소스: Apple Shortcuts 및 커뮤니티 ‘RoutineHub’
  • 이유: 이곳에는 이미 평균 70개가 넘는 액션과 복잡한 로직을 포함한 고품질 워크플로우가 존재했습니다.
  • 변환: 이 워크플로우들은 LLM이 학습하기 어려운 형식(.plist)이었고, 연구팀은 이를 모두 LLM이 학습하기 쉬운 Python 스타일 코드로 변환했습니다.

2단계: ‘다양성’ 확보를 위한 쿼리 확장

하지만 1단계에서 수집한 실제 데이터는 한계가 명확했습니다. 데이터의 40.3%가 ‘유틸리티’라는 한 카테고리에 편중되어 있었고, 사용된 API의 99% 이상이 Apple 기본 API였습니다. 이 데이터로만 학습하면 ‘편식하는’ 모델이 될 수밖에 없습니다.

해결책: ChatGPT를 활용하여 새로운 작업 쿼리(요청)를 대량으로 생성했습니다.

  • 방식: 다양한 API와 실제 워크플로우 예시를 ChatGPT에 제시하며, “이런 API들을 사용해 이런 복잡한 작업을 수행하는 요청을 만들어줘”라고 지시했습니다.
  • 결과: 데이터 분포가 훨씬 균형 잡히게 되었고, 다양한 API를 사용하는 복잡한 시나리오가 대폭 늘어났습니다.

3단계: ‘정답’ 워크플로우 생성

이제 2단계에서 생성한 수만 개의 ‘문제(쿼리)’에 대한 ‘정답(워크플로우 코드)’이 필요했습니다. 하지만 GPT-4o조차 이 작업을 제대로 못한다는 것이 문제의 시작이었습니다.

솔루션: ‘어노테이터 모델(Annotator Model)’을 활용했습니다.

작동 방식

  • 먼저, 1단계에서 수집한 ‘진짜 데이터‘로 기본 모델(Llama-3.1-8B)을 파인튜닝하여 ‘어노테이터 모델’을 만듭니다. 이 모델은 이미 실제 워크플로우 생성에 어느 정도 능숙합니다.
  • 이 ‘어노테이터 모델’을 사용하여 2단계에서 만든 ‘새로운 쿼리‘에 대한 워크플로우를 생성하게 합니다.
  • 마지막으로, 생성된 워크플로우의 버그를 수정하고 논리적 오류를 제거하는 ‘품질 확인(Quality Confirmation)‘ 단계를 거칩니다.

이렇게 ‘진짜 데이터’와 ‘합성 데이터’를 영리하게 결합하여 거대하고 강력한 WorkflowBench가 완성되었습니다.

4. 결과: WorkflowLlama(8B)가 GPT-4o를 압도하다

연구팀은 이 WorkflowBench 데이터셋을 사용해 Llama-3.1-8B 모델을 파인튜닝했고, 그 결과 ‘WorkflowLlama’가 탄생했습니다.

결과는 놀라웠습니다. 8B(80억 개 매개변수)의 상대적으로 작은 모델이, 현존 최강 모델 중 하나인 GPT-4o를 포함한 모든 베이스라인 모델을 압도했습니다.

✔️ 핵심 결과 (성능 비교)

평가 지표 WorkflowLlama (8B) GPT-4o 기타 베이스라인
성공률 (Pass Rate) – OOD 70.4% 57.6% 낮음
코드 정확도 (CodeBLEU) 우위 낮음 낮음

성공률 (Pass Rate): WorkflowLlama는 학습한 적 없는 API(OOD)에 대해서도 70.4%의 성공률을 보여, GPT-4o(57.6%)를 큰 차이로 앞섰습니다.

코드 정확도 (CodeBLEU): 코드의 구문 및 데이터 흐름 정확도에서도 모든 지표에서 압도적인 우위를 보였습니다.

5. “진짜 실력”은 복잡성에서 드러난다

더욱 흥미로운 점은 ‘복잡성’이 증가할 때의 성능입니다.

워크플로우의 액션 수, 분기/루프 수, 중첩 깊이가 증가할수록 모델 성능이 어떻게 변하는지를 살펴보면:

  • 다른 모든 모델 (점선): 작업이 조금만 복잡해져도(액션 30개 이상) 성능이 급격히 추락합니다.
  • WorkflowLlama (빨간 실선): 복잡성이 증가해도 다른 모델보다 훨씬 완만하게 성능이 하락하며, 가장 복잡한 구간에서도 압도적으로 높은 성능을 유지합니다.

이는 WorkflowLlama가 단순히 정답을 암기한 것이 아니라, 복잡한 논리 구조를 ‘이해’하고 ‘오케스트레이션’하는 능력 자체를 학습했음을 증명합니다.

심지어 T-Eval이라는 완전히 다른 도메인의 벤치마크에서도 WorkflowLlama(8B)는 Llama-2-70B, Qwen-72B와 같은 거대 모델들을 능가하는 강력한 일반화(OOD) 성능을 보여주었습니다.

결론: 차세대 AI 에이전트의 열쇠는 ‘데이터’입니다

WorkflowLLM의 등장은 우리에게 명확한 메시지를 전달합니다.

우리가 꿈꾸는 ‘만능 AI 비서’를 만드는 길은, 무작정 더 큰 모델을 만드는 것이 아닐 수도 있습니다. 그보다는 ‘무엇을, 어떻게’ 학습시키느냐가 더 중요합니다.

WorkflowLLM은 실제 전문가의 데이터를 기반으로, 의도적으로 다양성과 복잡성을 확장한 ‘데이터 중심 파인튜닝’이 어떻게 모델의 근본적인 ‘워크플로우 추론 능력’을 향상시킬 수 있는지 보여준 획기적인 사례입니다.

이 연구(arXiv:2411.05451)는 단순한 자동화를 넘어, LLM이 우리의 복잡한 요구사항을 스스로 계획하고 실행하는 진정한 ‘에이전트 기반 자동화(APA)’ 시대를 여는 중요한 청사진이 될 것입니다.

AI 에이전트의 미래를 알고 싶으신가요?

ProB AI 연구소와 함께 AI 혁신 기술의 흐름을 탐험해보세요.

더 알아보기

Similar Posts