AI 모델의 긴 글 생성 능력 저하를 시각화한 3D 계단 그래프. 짧은 토큰에서 긴 토큰으로 갈수록 급격히 낮아지는 성능 저하를 시각적으로 보여줍니다.
|

GPT-4o도 쩔쩔맨다? 최신 AI 모델의 숨겨진 약점, 긴 글 생성 능력 벤치마크 LONGPROC 전격 분석

GPT-4o도 쩔쩔맨다? 최신 AI 모델의 숨겨진 약점, ‘긴 글’ 생성 능력 벤치마크 LONGPROC 전격 분석

최신 AI가 진짜로 긴 글을 논리적으로 쓸 수 있을까?

요즘 AI, 정말 똑똑하죠. 질문하면 뭐든 답해주고, 글도 써주고, 코딩까지 척척 해냅니다. GPT-4o 같은 최신 대규모 언어 모델(LLM)들은 수백만 토큰, 즉 책 몇 권 분량의 정보를 한 번에 처리하는 ‘긴 컨텍스트’ 능력을 자랑합니다.

그런데 혹시 이런 생각해 보셨나요? “그래서 이 똑똑한 AI가 정말로 ‘긴 글’을 처음부터 끝까지 논리적으로, 일관성 있게 잘 쓸 수 있을까?”

정답부터 말씀드리면, “아직은 그렇지 않다”입니다. 그리고 이 사실을 명확히 증명하는 새로운 벤치마크가 등장했습니다. 바로 프린스턴 대학 연구팀이 개발한 LONGPROC (Long Procedural Generation)입니다.

LONGPROC은 기존의 ‘긴 컨텍스트’ 평가 방식의 허점을 파고들어, AI가 복잡하고 긴 절차를 따라 얼마나 일관성 있는 결과물을 만들어내는지를 시험합니다.

오늘은 이 흥미로운 LONGPROC 벤치마크가 무엇인지, 그리고 이를 통해 발견된 최신 AI 모델들의 예상 밖의 한계는 무엇인지 쉽고 깊이 있게 파헤쳐 보겠습니다.

기존 AI 평가 방식의 한계: “사막에서 바늘 찾기”

지금까지 LLM의 긴 컨텍스트 능력을 평가하는 방식은 주로 “건초더미에서 바늘 찾기(Needle-in-a-Haystack)”와 같았습니다. 수많은 관련 없는 정보(건초더미) 속에 특정 정보(바늘)를 숨겨두고, AI에게 찾아보라고 시키는 거죠.

이 방식은 AI가 긴 문서에서 특정 정보를 ‘기억’하고 ‘찾아내는’ 능력은 잘 측정할 수 있습니다. 하지만 우리가 실제 업무에서 AI에게 기대하는 것은 단순히 정보를 찾는 것을 넘어, 여러 정보를 종합하고, 복잡한 절차에 따라 새로운 결과물을 창조하는 능력입니다. 예를 들어, 여러 웹페이지의 정보를 모아 시장 분석 보고서를 쓰거나, 복잡한 제약 조건을 고려해 여행 계획을 짜는 것처럼 말이죠.

기존 벤치마크는 이런 ‘정보 통합’과 ‘긴 글 생성’ 능력을 제대로 평가하지 못한다는 한계가 있었습니다. AI가 전체 맥락을 정말로 ‘이해’하는 것인지, 아니면 단순히 몇몇 핵심 정보만 잘 ‘뽑아내는’ 것인지 알기 어려웠던 셈입니다.

새로운 평가의 장: LONGPROC의 등장

LONGPROC은 바로 이 지점에서 출발합니다. 연구팀은 AI에게 단순히 정보를 찾게 하는 대신, 명확한 절차와 규칙에 따라 긴 결과물을 생성하도록 요구했습니다. 마치 요리사에게 레시피를 주고 처음부터 끝까지 요리를 완성해보라고 시키는 것과 같습니다. 중간에 레시피를 잊어버리거나 순서를 뒤죽박죽 섞으면 요리를 망치게 되겠죠.

LONGPROC은 총 6가지의 다양한 작업으로 구성되어 있습니다:

HTML을 TSV로 변환하기: 웹페이지(HTML)에서 특정 정보를 추출해 표(TSV) 형식으로 정리하는 작업. 정보 추출의 정확성과 일관성을 평가합니다.
의사코드(Pseudocode)를 코드로 변환하기: 한 줄 한 줄 논리적으로 연결된 의사코드를 실제 프로그래밍 코드로 변환합니다.
경로 탐색(Path Traversal): 여러 도시의 연결 정보가 주어졌을 때, 출발지에서 목적지까지의 전체 경로를 순서대로 출력합니다.
마음 이론 추적(Theory-of-Mind Tracking): 이야기가 진행됨에 따라 등장인물의 신념이 어떻게 변하는지를 단계별로 추적합니다. 이는 고차원적인 추론 능력을 요구합니다.
카운트다운(Countdown): 주어진 숫자들과 사칙연산을 이용해 목표 숫자를 만드는 과정을 탐색적으로 찾아냅니다.
여행 계획(Travel Planning): 방문 기간, 항공편 등 여러 제약 조건을 만족하는 복잡한 여행 계획을 세웁니다.

이 작업들의 공통점은 ‘절차적 생성(Procedural Generation)’이라는 것입니다. 각 단계의 결과물이 이전 단계의 결과물에 영향을 받기 때문에, AI는 처음부터 끝까지 논리적 일관성을 유지해야만 합니다. 500 토큰, 2,000 토큰, 그리고 최대 8,000 토큰 길이의 결과물을 생성하도록 난이도를 나누어 AI의 한계를 테스트합니다.

충격적인 결과: 최신 AI 모델들도 8,000토큰의 벽 앞에서 무너지다

그렇다면 결과는 어땠을까요? 연구팀은 GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet 등 현존 모델들을 포함해 총 23개의 LLM을 테스트했습니다.

결과는 충격적이었습니다.

길이가 길어질수록 성능 급감: 거의 모든 모델이 500 토큰 길이의 짧은 결과물은 잘 생성했지만, 2,000 토큰을 넘어가면서 성능이 저하되기 시작했고, 8,000 토큰 수준에서는 처참한 결과를 보였습니다. 128K(12만 8천) 이상의 컨텍스트 창을 가졌다고 광고하는 모델들조차 긴 글 생성에서는 힘을 쓰지 못한 것입니다.
후반부로 갈수록 오류 증가: 더 흥미로운 사실은 생성된 결과물의 앞부분보다 뒷부분에서 오류가 훨씬 더 많이 발생했다는 점입니다. 이는 AI가 글을 길게 쓰면서 초반의 맥락이나 지시사항을 잊어버리고, 논리적 일관성을 유지하는 데 어려움을 겪는다는 것을 의미합니다.
추론 능력이 필요한 작업에 특히 취약: 단순 정보 추출(HTML to TSV)보다 복잡한 추론과 탐색이 필요한 ‘마음 이론 추적’이나 ‘여행 계획’ 같은 작업에서 성능 저하가 더욱 두드러졌습니다. 이는 각 단계가 서로 긴밀하게 연결된 작업일수록 AI가 더 힘들어한다는 뜻입니다.

Gemini 1.5 Pro가 8,000 토큰 레벨에서 평균 54.0점으로 가장 좋은 성능을 보였고, GPT-4o는 38.1점을 기록했습니다. 아직 갈 길이 멀다는 것을 알 수 있습니다.

결론: ‘진짜 긴 글’을 위한 새로운 과제

LONGPROC 벤치마크는 우리에게 중요한 사실을 알려줍니다. 현재의 AI 모델들은 긴 문서를 ‘읽는’ 능력은 뛰어나지만, 그 내용을 바탕으로 길고 일관성 있는 결과물을 ‘생성하는’ 능력은 아직 부족하다는 것입니다.

이는 단순히 정보를 요약하거나 짧은 답변을 생성하는 것을 넘어, AI를 보고서 작성, 논문 초안 생성, 복잡한 계획 수립 등 고차원적인 업무에 활용하려는 우리에게 큰 시사점을 줍니다.

앞으로 AI 개발자들은 단순히 컨텍스트 창을 늘리는 것을 넘어, 모델이 장거리 의존성을 이해하고, 긴 생성 과정 내내 논리적 일관성을 유지할 수 있도록 하는 새로운 아키텍처와 훈련 방법을 고민해야 할 것입니다.

ProB AI 연구소에서 2025년 최신 프롬프트 엔지니어링 연구 동향을 확인하세요.

🔍 AI가 엉뚱한 추천만 하는 이유: MAPLE 논문으로 본 ‘설명 가능한 추천’의 모든 것

Similar Posts