AI 에이전트 ExACT 프레임워크: 스스로 생각하고 길을 찾는 ‘성찰’ 기술
2026년 현재, AI가 ‘실제로 일을 처리하는’ 에이전트의 시대. 하지만 여전히 많은 AI가 웹사이트의 복잡한 구조 앞에서 길을 잃고 헤매곤 합니다.
오늘은 AI에게 ‘길치 본능’을 치료해주고, 스스로 생각하며 정답을 찾아가게 만드는 프레임워크, ExACT(Teaching AI Agents to Explore)를 쉽고 명쾌하게 정리해 드립니다.
1. 왜 내 AI는 쇼핑 하나 제대로 못 할까?
우리가 GPT-4o나 최신 추론 모델(o1 등)에게 “최저가 항공권을 예약해줘”라고 시켰을 때, AI가 실패하는 이유는 지능이 낮아서가 아닙니다. ‘뒤로 가기’를 할 줄 모르기 때문입니다.
“어? 이 버튼이 아니네? 에라 모르겠다, 일단 아무거나 더 눌러보자.”
(막다른 길에서 계속 벽에 머리를 박는 격)
“잠깐, 이 화면이 나오면 안 되는데? 아까 검색 조건을 잘못 넣었나 보군. 다시 목록으로 돌아가자.”
인간의 웹 탐색 성공률이 89%인 반면, 기존 AI 에이전트들이 20%대에 머물렀던 결정적 차이는 바로 이 ‘시행착오를 통한 전략 수정’ 능력이었습니다.
2. ExACT의 핵심: AI가 쓰는 ‘오답 노트’ (R-MCTS)
ExACT는 R-MCTS(Reflective Monte Carlo Tree Search)라는 기술을 사용합니다. 쉽게 말해, AI 머릿속에 ‘내비게이션’과 ‘오답 노트’를 동시에 설치하는 겁니다.
AI가 특정 행동을 하기 전의 ‘기대치’와 행동 후의 ‘실제 결과’를 비교합니다.
- 상황: “필터 적용” 버튼을 클릭함
- 예상: 가격 낮은 순으로 정렬되겠지?
- 실제: 갑자기 로그아웃 화면이 뜸
- 성찰: “아, 이 사이트는 세션이 만료되면 필터가 안 먹는구나. 로그인부터 다시 해야겠다.”
혼자 결정하면 독단에 빠지기 쉽죠. ExACT는 내부적으로 두 명의 에이전트가 “이 길로 가는 게 맞아?”라고 토론하게 합니다.
“내 생각엔 이 버튼이 정답이야” vs “아니, 저번에도 그거 눌렀다가 망했잖아”라며 싸우다 보면 결국 가장 안전하고 정확한 길을 찾게 됩니다.
3. 학습의 진화: 지도를 아예 외워버리기 (Exploratory Learning)
탐색은 좋지만, 매번 ‘생각’을 너무 많이 하면 시간과 비용(토큰)이 많이 듭니다. ExACT는 여기서 한 발 더 나아갑니다.
수많은 탐색 과정을 통해 얻은 ‘깨달음’을 모델 자체에 직접 학습시킵니다. 이를 EL(Exploratory Learning)이라고 합니다.
처음에는 지도를 보고 쩔쩔매며 길을 찾던 초보 운전자가, 나중에는 눈 감고도 골목길을 빠져나가는 베테랑 운전자가 되는 과정과 같습니다.
결과: 탐색 과정 없이도 성능은 유지하면서, 추론 비용은 획기적으로 줄어듭니다. ‘생각하는 AI’가 ‘직관적인 AI’로 진화하는 셈이죠.
4. 실전 결과: “융통성”을 배운 AI
연구팀이 가혹한 웹 환경(Visual WebArena)에서 테스트한 결과, ExACT를 적용한 에이전트는 기존 모델보다 최대 30% 이상 높은 성공률을 보였습니다.
특히 흥미로운 점은 AI가 ‘융통성’을 발휘하기 시작했다는 것입니다.
- 검색창이 고장 난 사이트에서 당황하지 않고 카테고리 메뉴를 하나씩 클릭해서 목표 상품을 찾아냄
- “길이 막히면 돌아간다”는 지극히 인간적인 상식을 AI가 드디어 이해하기 시작
- 막다른 길에서 전략을 자동 전환하는 능력 확보
💡 이제 AI는 ‘도구’가 아니라 ‘주체’입니다
지금까지의 AI가 시키는 대로만 움직이는 무미건조한 ‘도구’였다면, ExACT 이후의 에이전트는 스스로 고민하고 최선의 경로를 설계하는 ‘능동적인 파트너’에 가깝습니다.
여러분 업무의 복잡한 워크플로우를 대신 처리해 줄 비서가 필요하신가요? 그렇다면 이제 단순히 “똑똑한 AI”가 아니라, “스스로 반성하고 탐색할 줄 아는 AI”인지 확인해야 하는 시대가 왔습니다.
한 줄 요약: 무작정 클릭만 하던 AI는 끝났습니다. 이제는 “왜 안 됐지?”를 고민하며 오답 노트를 쓰는 ‘성찰하는 AI’의 시대입니다.
