마이크로소프트의 XOT(Everything of Thoughts)가 몬테카를로 트리 탐색(MCTS)을 활용해 생성한 효율적인 '사고 지도'를 시각화한 이미지입니다.
|

XOT (Everything of Thoughts): AI 추론 비용을 1/30로 줄이는 혁신 기술

XOT (Everything of Thoughts): AI 추론 비용을 1/30로 줄이는 혁신 기술
마이크로소프트의 XOT(Everything of Thoughts)가 몬테카를로 트리 탐색(MCTS)을 활용해 생성한 효율적인 '사고 지도'를 시각화한 이미지입니다.

성능, 효율성, 유연성. AI 추론의 ‘불가능한 삼각형’을 마이크로소프트와 조지아 공대가 MCTS로 돌파했습니다.


1. 풀리지 않던 삼각형: AI 추론의 딜레마

똑똑한 AI를 만들려면 비용이 듭니다. 지금까지 우리는 성능(정확도), 효율성(비용), 유연성(복잡한 문제 해결)이라는 세 마리 토끼를 다 잡고 싶어 했지만, 현실은 ‘펜로즈 삼각형’처럼 하나를 얻으면 하나를 포기해야 하는 구조였습니다.

  • CoT (Chain-of-Thought): 한 단계씩 차근차근 풀지만, 중간에 길을 잘못 들면 답이 없습니다. 유연성이 꽝이죠.
  • ToT/GoT (Tree/Graph-of-Thought): 여러 경우의 수를 다 따져보니 유연하고 정확합니다. 그런데 문제는 지갑이 털립니다. 벤치마크 결과, 문제 하나 푸는 데 LLM을 50번 넘게 호출하기도 합니다. 배보다 배꼽이 더 큰 셈이죠.

마이크로소프트와 조지아 공대가 내놓은 XOT(Everything of Thoughts)는 이 말도 안 되는 비용 효율성 문제를 해결하기 위해 등장했습니다.


2. XOT의 전략: “비싼 장군님 대신 유능한 정찰병을 써라”

XOT의 핵심은 사고의 외부화입니다. 모든 고민을 비싼 LLM(장군)에게 맡기지 않고, 가벼운 알고리즘(정찰병)에게 맡기는 전략이죠. 여기서 등장하는 것이 바둑 AI ‘알파고’의 핵심 기술이었던 몬테카를로 트리 탐색(MCTS)입니다.

어떻게 작동하나요? (3단계 프로세스)

  1. 탐색 (Searching) — 가벼운 모델()이 MCTS를 활용해 수만 번의 시뮬레이션을 돌립니다. “이 길로 가면 망할 것 같은데?” 싶은 경로는 미리 쳐내고, 가장 그럴싸한 ‘사고 지도’를 만듭니다.
  2. 추론 (Inference) — LLM은 정찰병이 잘 닦아놓은 지도(사고 궤적)를 건네받습니다. 그리고 단 한 번의 호출로 정답을 찍습니다.
  3. 수정 (Revision) — 혹시라도 정답이 틀리면, 그제야 LLM이 개입해 “이 부분 로직이 이상한데?”라고 피드백을 주고 지도를 수정합니다.

3. 기술적 뼈대: 멍청하게 다 가보지 않는 법

XOT가 효율적인 이유는 PUCT 알고리즘이라는 수학적 장치 덕분입니다. 쉽게 말해 ‘이미 아는 좋은 길(Q)’‘안 가봤지만 유망해 보이는 길(P)’ 사이에서 줄타기를 아주 잘합니다.

\[ a = \arg\max_a \left( Q(s,a) + C\, P_{\theta}(s,a)\, \frac{\sqrt{N(s)}}{1+N(s,a)} \right) \]

또한, 이 시스템은 예측한 가치와 실제 결과 사이의 오차를 줄이며 스스로 학습합니다.

\[ \mathcal{L} = \bigl(v(s) – v_{\theta}(s)\bigr)^2 + \epsilon(s)^T \log P_{\theta}(s) \]

4. 데이터가 증명하는 압도적 가성비

말만 번지르르한 게 아닙니다. 실제 고난도 퍼즐 과제에서 거둔 성적표를 보시죠. (GPT-4 기준)

XOT vs ToT 성능 비교 (GPT-4 기준)
과제 기법 정확도 (Acc.) LLM 호출 수
Game of 24 ToT (기존) 60.58% 39.83회
XOT (신규) 85.40% 1.78회
8-Puzzle ToT (기존) 13.45% 54.13회
XOT (신규) 95.80% 1.61회
요점 정리: 8-퍼즐에서 기존 방식이 13%의 처참한 성적을 낼 때, XOT는 호출 횟수를 1/30로 줄이면서도 정확도를 95.8%까지 끌어올렸습니다. 효율성과 성능, 두 마리 토끼를 다 잡은 거죠.

5. 실전 적용: 우리도 XOT처럼 사고할 수 있을까?

이 논리는 비즈니스 의사결정에도 그대로 적용됩니다. 무작정 결론부터 내지 말고 아래 단계를 밟아보세요.

  1. 목표 설정 — 무엇이 성공인지 보상 기준을 명확히 합니다.
  2. 경로 탐색 (MCTS 모드) — 처음부터 완벽한 기안서를 쓰지 마세요. 가벼운 메모 수준으로 예상되는 시나리오 3~5개를 먼저 나열해 봅니다.
  3. 비판적 수정 (Revision) — 나열된 시나리오 중 현실적 제약에 걸리는 부분을 골라내고 대안을 찾습니다.
  4. 최종 확정 (Inference) — 검증된 최적의 시나리오 하나에 집중해 실행 계획을 완성합니다.

6. 이제 AI는 ‘제대로’ 생각합니다

XOT는 단순히 프롬프트를 잘 쓰는 기술이 아닙니다. AI 시스템이 어떻게 하면 ‘인간처럼 유연하지만 컴퓨터처럼 효율적으로’ 고차원적인 지능을 구현할 수 있는지 보여주는 이정표입니다.

성능과 비용의 최적점을 찾은 이 방식은 앞으로 나올 모든 AI 에이전트의 표준이 될 가능성이 높습니다.

Similar Posts