GPT-4o도 쩔쩔맨다? 최신 AI 모델의 숨겨진 약점, 긴 글 생성 능력 벤치마크 LONGPROC 전격 분석
최신 AI가 진짜로 긴 글을 논리적으로 쓸 수 있을까?
요즘 AI, 정말 똑똑하죠. 질문하면 뭐든 답해주고, 글도 써주고, 코딩까지 척척 해냅니다. GPT-4o 같은 최신 대규모 언어 모델(LLM)들은 수백만 토큰, 즉 책 몇 권 분량의 정보를 한 번에 처리하는 ‘긴 컨텍스트’ 능력을 자랑합니다.
그런데 혹시 이런 생각해 보셨나요? “그래서 이 똑똑한 AI가 정말로 ‘긴 글’을 처음부터 끝까지 논리적으로, 일관성 있게 잘 쓸 수 있을까?”
정답부터 말씀드리면, “아직은 그렇지 않다”입니다. 그리고 이 사실을 명확히 증명하는 새로운 벤치마크가 등장했습니다. 바로 프린스턴 대학 연구팀이 개발한 LONGPROC (Long Procedural Generation)입니다.
LONGPROC은 기존의 ‘긴 컨텍스트’ 평가 방식의 허점을 파고들어, AI가 복잡하고 긴 절차를 따라 얼마나 일관성 있는 결과물을 만들어내는지를 시험합니다.
오늘은 이 흥미로운 LONGPROC 벤치마크가 무엇인지, 그리고 이를 통해 발견된 최신 AI 모델들의 예상 밖의 한계는 무엇인지 쉽고 깊이 있게 파헤쳐 보겠습니다.
기존 AI 평가 방식의 한계: “사막에서 바늘 찾기”
지금까지 LLM의 긴 컨텍스트 능력을 평가하는 방식은 주로 “건초더미에서 바늘 찾기(Needle-in-a-Haystack)”와 같았습니다. 수많은 관련 없는 정보(건초더미) 속에 특정 정보(바늘)를 숨겨두고, AI에게 찾아보라고 시키는 거죠.
이 방식은 AI가 긴 문서에서 특정 정보를 ‘기억’하고 ‘찾아내는’ 능력은 잘 측정할 수 있습니다. 하지만 우리가 실제 업무에서 AI에게 기대하는 것은 단순히 정보를 찾는 것을 넘어, 여러 정보를 종합하고, 복잡한 절차에 따라 새로운 결과물을 창조하는 능력입니다. 예를 들어, 여러 웹페이지의 정보를 모아 시장 분석 보고서를 쓰거나, 복잡한 제약 조건을 고려해 여행 계획을 짜는 것처럼 말이죠.
기존 벤치마크는 이런 ‘정보 통합’과 ‘긴 글 생성’ 능력을 제대로 평가하지 못한다는 한계가 있었습니다. AI가 전체 맥락을 정말로 ‘이해’하는 것인지, 아니면 단순히 몇몇 핵심 정보만 잘 ‘뽑아내는’ 것인지 알기 어려웠던 셈입니다.
새로운 평가의 장: LONGPROC의 등장
LONGPROC은 바로 이 지점에서 출발합니다. 연구팀은 AI에게 단순히 정보를 찾게 하는 대신, 명확한 절차와 규칙에 따라 긴 결과물을 생성하도록 요구했습니다. 마치 요리사에게 레시피를 주고 처음부터 끝까지 요리를 완성해보라고 시키는 것과 같습니다. 중간에 레시피를 잊어버리거나 순서를 뒤죽박죽 섞으면 요리를 망치게 되겠죠.
LONGPROC은 총 6가지의 다양한 작업으로 구성되어 있습니다:
이 작업들의 공통점은 ‘절차적 생성(Procedural Generation)’이라는 것입니다. 각 단계의 결과물이 이전 단계의 결과물에 영향을 받기 때문에, AI는 처음부터 끝까지 논리적 일관성을 유지해야만 합니다. 500 토큰, 2,000 토큰, 그리고 최대 8,000 토큰 길이의 결과물을 생성하도록 난이도를 나누어 AI의 한계를 테스트합니다.
충격적인 결과: 최신 AI 모델들도 8,000토큰의 벽 앞에서 무너지다
그렇다면 결과는 어땠을까요? 연구팀은 GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet 등 현존 모델들을 포함해 총 23개의 LLM을 테스트했습니다.
결과는 충격적이었습니다.
Gemini 1.5 Pro가 8,000 토큰 레벨에서 평균 54.0점으로 가장 좋은 성능을 보였고, GPT-4o는 38.1점을 기록했습니다. 아직 갈 길이 멀다는 것을 알 수 있습니다.
결론: ‘진짜 긴 글’을 위한 새로운 과제
LONGPROC 벤치마크는 우리에게 중요한 사실을 알려줍니다. 현재의 AI 모델들은 긴 문서를 ‘읽는’ 능력은 뛰어나지만, 그 내용을 바탕으로 길고 일관성 있는 결과물을 ‘생성하는’ 능력은 아직 부족하다는 것입니다.
이는 단순히 정보를 요약하거나 짧은 답변을 생성하는 것을 넘어, AI를 보고서 작성, 논문 초안 생성, 복잡한 계획 수립 등 고차원적인 업무에 활용하려는 우리에게 큰 시사점을 줍니다.
앞으로 AI 개발자들은 단순히 컨텍스트 창을 늘리는 것을 넘어, 모델이 장거리 의존성을 이해하고, 긴 생성 과정 내내 논리적 일관성을 유지할 수 있도록 하는 새로운 아키텍처와 훈련 방법을 고민해야 할 것입니다.
ProB AI 연구소에서 2025년 최신 프롬프트 엔지니어링 연구 동향을 확인하세요.