AI가 복잡한 일을 망치는 이유: ‘AI 워크플로우’의 비밀
AI가 복잡한 프로젝트를 망치는 진짜 이유는 ‘작업 흐름’의 비밀에 있습니다
AI 질문의 역설: 간단한 것은 잘하고, 복잡한 것은 틀리는 이유
혹시 이런 경험 없으신가요? ChatGPT 같은 AI에게 간단한 질문을 하거나 글 요약을 맡기면 놀라울 정도로 훌륭하게 해냅니다. 하지만 “여러 부서가 협력하는 신제품 마케팅 캠페인 전체를 기획해 줘”처럼 복잡하고 여러 단계가 얽힌 업무를 맡기면, 결과가 영 실망스럽습니다.
왜 그럴까요? 이 똑똑한 AI가 왜 유독 ‘복잡한 일’ 앞에서는 길을 잃는 걸까요?
최근 한 연구(ICLR 2025)에서 그 충격적인 답을 내놓았습니다. 문제는 AI의 ‘지식’이 아니라, ‘일을 계획하는 능력‘, 즉 ‘워크플로우(Workflow)’를 짜는 능력에 있었습니다.
이 글에서는 AI가 왜 복잡한 작업을 실패하는지, 그 근본적인 이유를 독자분들이 궁금해하실 만한 핵심만 쏙쏙 뽑아 명쾌하게 설명해 드리겠습니다.
1. AI가 이해하는 ‘일’의 두 가지 유형
AI가 ‘일한다’고 할 때, 우리는 AI가 우리의 의도를 파악하고 알아서 단계를 밟아주길 기대합니다. 하지만 모든 작업이 같지 않습니다. 연구진은 AI가 처리하는 작업을 두 가지로 명확히 구분합니다.
1) 선형 워크플로우 (Linear Workflow): AI가 잘하는 것
이것은 ‘간단한 요리 레시피’와 같습니다.
1. 계란을 푼다. → 2. 프라이팬을 달군다. → 3. 계란을 붓는다.
모든 단계가 순서대로 진행되면 됩니다. AI는 이런 단순한 ‘체크리스트’ 스타일의 작업은 매우 잘 처리합니다.
2) 그래프 워크플로우 (Graph Workflow): AI가 못하는 것
이것은 ‘이사 준비’ 프로젝트와 같습니다.
병렬 실행: ‘인터넷 이전 신청’과 ‘포장 이사 업체 견적’은 동시에 진행할 수 있습니다.
종속성: ‘새집 입주 청소’는 반드시 ‘잔금 치르기’가 끝난 후에만 시작할 수 있습니다.
이렇게 여러 작업의 관계(누가 먼저인지, 무엇과 동시에 해도 되는지)를 파악하고 조율하는 것이 바로 ‘그래프 워크플로우‘입니다.
지금까지 대부분의 AI 평가는 단순한 ‘선형 워크플로우’에만 집중했습니다. 이는 마치 운전면허 시험을 텅 빈 주차장에서만 보는 것과 같았습니다.
2. AI를 위한 진짜 ‘도로 주행’ 시험: WORFBENCH
연구진은 이 문제를 해결하기 위해 AI의 진짜 ‘계획 능력’을 측정하는 새로운 시험장, WORFBENCH를 만들었습니다.
WORFBENCH는 AI에게 훨씬 더 현실적이고 복잡한 ‘그래프 구조’의 문제들을 제시합니다. (예: 여러 도구를 순서에 맞게 호출하기, 가상 환경에서 물건 옮기기, 여러 단계의 수학 문제 풀기 등)
📉 충격적인 결과: GPT-4도 ‘그래프’ 앞에선 흔들리다
결과는 놀라웠습니다. GPT-4, Claude-3.5 등 AI 모델 18개를 테스트한 결과, 모든 모델에서 ‘그래프 계획’ 점수가 ‘선형 계획’ 점수보다 현저하게 낮았습니다.
테스트 모델 중 가장 똑똑하다는 GPT-4조차도 ‘그래프 계획’ 능력(f1_graph)은 고작 52.47%에 그쳤습니다.
이는 우리가 AI의 ‘지능’이라고 믿었던 것의 상당 부분이, 사실은 단순한 순차적 작업 처리 능력이었을 수 있음을 시사합니다. AI는 아직 여러 작업을 동시에 고려하고 조율하는 ‘프로젝트 매니저’로서의 역량은 매우 부족한, 말하자면 ‘신입사원’ 수준인 셈입니다.
3. AI는 도대체 무엇을, 왜 틀리는 걸까요?
단순히 점수가 낮다는 것보다 더 중요한 것은 “왜 틀리는가”입니다. AI가 계획을 짤 때 저지르는 치명적인 오류 유형들을 쉬운 예시로 비교해 보겠습니다.
1) 세분성/명시성 오류: “너무 대충이거나 뜬구름 잡거나”
AI가 작업을 ‘실행 가능한 최소 단위‘로 나누지 못하거나, 너무 모호하게 지시하는 문제입니다.
지시: “차가운 감자를 쓰레기통에 버려라.”
잘못된 계획 (AI):
- 냉장고로 간다.
- 차가운 감자를 꺼낸다.
- 쓰레기통으로 간다.
- 버린다.
무엇이 문제인가요? AI는 “감자가 이미 냉장고 안에 있다”고 멋대로 가정했습니다.
올바른 계획 (현실):
- (만약 감자가 식탁 위에 있다면) 감자를 찾는다.
- 감자를 냉장고에 넣는다.
- (차가워질 때까지 기다린다.)
- 차가운 감자를 꺼낸다.
- …
근본 원인: AI에게는 ‘감자를 차갑게 만들려면 냉장고에 넣어야 한다’는 ‘세상 물정(환경에 대한 기본 지식)’이 부족합니다.
2) 그래프 오류: “순서가 틀렸잖아!” (가장 치명적)
작업 자체는 올바르게 식별했지만, 작업 간의 ‘종속성’이나 ‘병렬성’을 잘못 파악하는 경우입니다.
지시: “A, B, C 세 가지 작업을 독립적으로(서로 상관없이) 수행하라.”
잘못된 계획 (AI):
- A를 실행한다.
- A가 끝나면 B를 실행한다.
- A가 끝나면 C를 실행한다.
무엇이 문제인가요? AI는 A, B, C가 모두 병렬로(동시에) 실행 가능하다는 것을 인지하지 못하고, 불필요하게 A가 끝날 때까지 기다리도록(종속 관계) 계획을 짰습니다. 이는 효율성을 심각하게 떨어뜨립니다.
4. 결론: ‘더 큰 AI’가 아니라 ‘더 똑똑하게 계획하는 AI’가 필요하다
이 연구는 AI의 한계를 명확히 보여주는 동시에, 우리가 나아가야 할 길을 제시합니다.
단순히 더 큰 모델을 만드는 것만으로는 이 문제를 해결할 수 없습니다. AI에게 ‘세상에 대한 지식’과 ‘구조적 계획 능력’을 가르쳐야 합니다.
흥미롭게도, 이 연구는 ‘워크플로우’가 AI의 성능을 향상시키는 ‘솔루션’이 될 수 있음도 보여줍니다. AI에게 작업만 툭 던져주는 것이 아니라, 잘 짜인 ‘워크플로우(계획안)’를 미리 제공하자 AI의 성능이 크게 향상되었습니다.
결국 핵심은 이것입니다. AI에게 ‘더 큰 뇌’를 주는 것이 아니라, ‘일을 잘하는 방법이 담긴 지도(워크플로우)’를 쥐여주는 것이죠.
지금까지 우리가 “AI가 얼마나 말을 잘하는가?”에 열광했다면, 이제는 “AI가 얼마나 계획을 잘 짜고 실행하는가?”를 평가해야 할 때입니다. 이 연구는 AI가 우리의 복잡한 프로젝트를 믿고 맡길 ‘유능한 에이전트’가 되기 위해 무엇이 필요한지 명확히 보여줍니다.
