AI 로봇이 선형 워크플로우와 복잡한 그래프 워크플로우를 보여주는 그림. AI의 계획 능력 한계를 시각적으로 설명하며 AI 복잡한 작업 처리의 어려움을 나타냄.
|

AI가 복잡한 일을 망치는 이유: ‘AI 워크플로우’의 비밀

AI가 복잡한 일을 망치는 이유: ‘AI 워크플로우’의 비밀

AI가 복잡한 프로젝트를 망치는 진짜 이유는 ‘작업 흐름’의 비밀에 있습니다

AI 질문의 역설: 간단한 것은 잘하고, 복잡한 것은 틀리는 이유

혹시 이런 경험 없으신가요? ChatGPT 같은 AI에게 간단한 질문을 하거나 글 요약을 맡기면 놀라울 정도로 훌륭하게 해냅니다. 하지만 “여러 부서가 협력하는 신제품 마케팅 캠페인 전체를 기획해 줘”처럼 복잡하고 여러 단계가 얽힌 업무를 맡기면, 결과가 영 실망스럽습니다.

왜 그럴까요? 이 똑똑한 AI가 왜 유독 ‘복잡한 일’ 앞에서는 길을 잃는 걸까요?

최근 한 연구(ICLR 2025)에서 그 충격적인 답을 내놓았습니다. 문제는 AI의 ‘지식’이 아니라, ‘일을 계획하는 능력‘, 즉 ‘워크플로우(Workflow)’를 짜는 능력에 있었습니다.

이 글에서는 AI가 왜 복잡한 작업을 실패하는지, 그 근본적인 이유를 독자분들이 궁금해하실 만한 핵심만 쏙쏙 뽑아 명쾌하게 설명해 드리겠습니다.

1. AI가 이해하는 ‘일’의 두 가지 유형

AI가 ‘일한다’고 할 때, 우리는 AI가 우리의 의도를 파악하고 알아서 단계를 밟아주길 기대합니다. 하지만 모든 작업이 같지 않습니다. 연구진은 AI가 처리하는 작업을 두 가지로 명확히 구분합니다.

1) 선형 워크플로우 (Linear Workflow): AI가 잘하는 것

이것은 ‘간단한 요리 레시피’와 같습니다.

1. 계란을 푼다. → 2. 프라이팬을 달군다. → 3. 계란을 붓는다.

모든 단계가 순서대로 진행되면 됩니다. AI는 이런 단순한 ‘체크리스트’ 스타일의 작업은 매우 잘 처리합니다.

2) 그래프 워크플로우 (Graph Workflow): AI가 못하는 것

이것은 ‘이사 준비’ 프로젝트와 같습니다.

병렬 실행: ‘인터넷 이전 신청’과 ‘포장 이사 업체 견적’은 동시에 진행할 수 있습니다.

종속성: ‘새집 입주 청소’는 반드시 ‘잔금 치르기’가 끝난 후에만 시작할 수 있습니다.

이렇게 여러 작업의 관계(누가 먼저인지, 무엇과 동시에 해도 되는지)를 파악하고 조율하는 것이 바로 ‘그래프 워크플로우‘입니다.

지금까지 대부분의 AI 평가는 단순한 ‘선형 워크플로우’에만 집중했습니다. 이는 마치 운전면허 시험을 텅 빈 주차장에서만 보는 것과 같았습니다.

2. AI를 위한 진짜 ‘도로 주행’ 시험: WORFBENCH

연구진은 이 문제를 해결하기 위해 AI의 진짜 ‘계획 능력’을 측정하는 새로운 시험장, WORFBENCH를 만들었습니다.

WORFBENCH는 AI에게 훨씬 더 현실적이고 복잡한 ‘그래프 구조’의 문제들을 제시합니다. (예: 여러 도구를 순서에 맞게 호출하기, 가상 환경에서 물건 옮기기, 여러 단계의 수학 문제 풀기 등)

📉 충격적인 결과: GPT-4도 ‘그래프’ 앞에선 흔들리다

결과는 놀라웠습니다. GPT-4, Claude-3.5 등 AI 모델 18개를 테스트한 결과, 모든 모델에서 ‘그래프 계획’ 점수가 ‘선형 계획’ 점수보다 현저하게 낮았습니다.

테스트 모델 중 가장 똑똑하다는 GPT-4조차도 ‘그래프 계획’ 능력(f1_graph)은 고작 52.47%에 그쳤습니다.

이는 우리가 AI의 ‘지능’이라고 믿었던 것의 상당 부분이, 사실은 단순한 순차적 작업 처리 능력이었을 수 있음을 시사합니다. AI는 아직 여러 작업을 동시에 고려하고 조율하는 ‘프로젝트 매니저’로서의 역량은 매우 부족한, 말하자면 ‘신입사원’ 수준인 셈입니다.

3. AI는 도대체 무엇을, 왜 틀리는 걸까요?

단순히 점수가 낮다는 것보다 더 중요한 것은 “왜 틀리는가”입니다. AI가 계획을 짤 때 저지르는 치명적인 오류 유형들을 쉬운 예시로 비교해 보겠습니다.

1) 세분성/명시성 오류: “너무 대충이거나 뜬구름 잡거나”

AI가 작업을 ‘실행 가능한 최소 단위‘로 나누지 못하거나, 너무 모호하게 지시하는 문제입니다.

지시: “차가운 감자를 쓰레기통에 버려라.”

잘못된 계획 (AI):

  1. 냉장고로 간다.
  2. 차가운 감자를 꺼낸다.
  3. 쓰레기통으로 간다.
  4. 버린다.

무엇이 문제인가요? AI는 “감자가 이미 냉장고 안에 있다”고 멋대로 가정했습니다.

올바른 계획 (현실):

  1. (만약 감자가 식탁 위에 있다면) 감자를 찾는다.
  2. 감자를 냉장고에 넣는다.
  3. (차가워질 때까지 기다린다.)
  4. 차가운 감자를 꺼낸다.

근본 원인: AI에게는 ‘감자를 차갑게 만들려면 냉장고에 넣어야 한다’는 ‘세상 물정(환경에 대한 기본 지식)’이 부족합니다.

2) 그래프 오류: “순서가 틀렸잖아!” (가장 치명적)

작업 자체는 올바르게 식별했지만, 작업 간의 ‘종속성’이나 ‘병렬성’을 잘못 파악하는 경우입니다.

지시: “A, B, C 세 가지 작업을 독립적으로(서로 상관없이) 수행하라.”

잘못된 계획 (AI):

  1. A를 실행한다.
  2. A가 끝나면 B를 실행한다.
  3. A가 끝나면 C를 실행한다.

무엇이 문제인가요? AI는 A, B, C가 모두 병렬로(동시에) 실행 가능하다는 것을 인지하지 못하고, 불필요하게 A가 끝날 때까지 기다리도록(종속 관계) 계획을 짰습니다. 이는 효율성을 심각하게 떨어뜨립니다.

4. 결론: ‘더 큰 AI’가 아니라 ‘더 똑똑하게 계획하는 AI’가 필요하다

이 연구는 AI의 한계를 명확히 보여주는 동시에, 우리가 나아가야 할 길을 제시합니다.

단순히 더 큰 모델을 만드는 것만으로는 이 문제를 해결할 수 없습니다. AI에게 ‘세상에 대한 지식’과 ‘구조적 계획 능력’을 가르쳐야 합니다.

흥미롭게도, 이 연구는 ‘워크플로우’가 AI의 성능을 향상시키는 ‘솔루션’이 될 수 있음도 보여줍니다. AI에게 작업만 툭 던져주는 것이 아니라, 잘 짜인 ‘워크플로우(계획안)’를 미리 제공하자 AI의 성능이 크게 향상되었습니다.

결국 핵심은 이것입니다. AI에게 ‘더 큰 뇌’를 주는 것이 아니라, ‘일을 잘하는 방법이 담긴 지도(워크플로우)’를 쥐여주는 것이죠.

지금까지 우리가 “AI가 얼마나 말을 잘하는가?”에 열광했다면, 이제는 “AI가 얼마나 계획을 잘 짜고 실행하는가?”를 평가해야 할 때입니다. 이 연구는 AI가 우리의 복잡한 프로젝트를 믿고 맡길 ‘유능한 에이전트’가 되기 위해 무엇이 필요한지 명확히 보여줍니다.

더 나은 AI 활용법을 배우고 싶다면 ProB AI 연구소의 콘텐츠를 확인해보세요.

더 알아보기

Similar Posts