아직도 CoT 쓰세요? 구글이 제시한 생각의 나무(ToT) 문제 해결법
GPT-4 같은 고성능 언어 모델(LLM)에게 조금만 복잡한 문제를 던져주면, 어딘가 헤매거나 엉뚱한 답을 내놓는 경험, 다들 한 번쯤 있으시죠? 마치 내비게이션에 목적지를 찍었더니, 꽉 막힌 일방통행 길로만 안내하는 답답함과 비슷합니다.
이는 LLM의 기본적인 사고방식이 ‘하나의 길’만 따라가는 연쇄적 사고(Chain of Thought, CoT)에 머물러 있기 때문입니다. 첫 단추를 잘못 끼우면, 그 뒤는 생각할 필요도 없이 어긋나 버리는 방식이죠.
그런데 만약 AI가 하나의 길이 아니라, 여러 갈래의 가능성을 동시에 탐색하고, 어떤 길이 막다른 길인지 스스로 판단하며, 최적의 경로를 찾아낸다면 어떨까요? 이 혁신적인 아이디어를 현실로 만든 것이 바로 구글 딥마인드와 프린스턴 대학이 제시한 생각의 나무(Tree of Thoughts, ToT) 프레임워크입니다.
ToT는 단순히 똑똑하게 계산하는 것을 넘어, 인간의 ‘숙고(Deliberation)’하는 방식을 흉내 냅니다. 여러 선택지를 저울질하고, 잘못된 길은 과감히 버리며, 최종 목표를 향해 전략적으로 나아가는 능력, 이것이 바로 ToT의 핵심입니다.
외길 탐색 vs. 종합 탐색: CoT와 ToT의 결정적 차이
ToT가 왜 특별한지 알려면, 기존 방식들의 명확한 한계를 짚어봐야 합니다.
단순 입출력 (IO): 묻고 답하기. “오늘 날씨 어때?” 같은 간단한 질문에는 유용하지만, 그 이상을 기대하기는 어렵습니다.
연쇄적 사고 (CoT): “A 다음 B, B 다음 C”처럼 과정을 단계별로 생각하게 만들어 추론 능력을 끌어올렸습니다. 하지만 이는 ‘외길’ 탐색이라, A에서 길을 잘못 들면 그대로 끝입니다. 되돌아올 방법이 없죠.
자가 일관성 (Self-Consistency): CoT를 여러 번 실행해서 가장 많이 나온 답을 고르는 ‘다수결’ 방식입니다. 여러 길을 가보긴 하지만, 각자 따로 출발해서 서로에게 아무런 영향을 주지 못합니다. 하나가 막다른 길에 부딪혔다고 해서 다른 길이 그 정보를 활용하지 못하죠.
생각의 나무(ToT)는 이 모든 것을 뛰어넘습니다. 문제 해결 과정을 하나의 ‘나무’로 보고, 각 생각을 ‘나뭇가지’로 여겨 여러 경로를 동시에 뻗어 나갑니다.
이는 유능한 형사가 사건을 수사하는 방식과 같습니다. 어설픈 형사는 한 명의 용의자만 붙들고 늘어지지만(CoT), 유능한 형사는 여러 용의자의 알리바이를 동시에 조사하고(다양한 생각 생성), 모순이 발견되면 즉시 다른 용의자에게 수사력을 집중합니다(평가와 백트래킹). ToT는 LLM을 바로 이 ‘유능한 형사’로 만들어 줍니다.
ToT는 어떻게 작동하는가? 4단계 핵심 프로세스
ToT는 다음 4가지 체계적인 단계로 LLM의 사고를 관리하고 확장합니다.
문제 쪼개기 (Thought Decomposition)
거대한 문제를 잘게 나눕니다. ‘창의적인 글쓰기’라면 ‘전체 개요 짜기 → 각 문단 핵심 아이디어 내기 → 문장 다듬기’처럼 사고의 단위를 정의하는 것이죠. 이 단위를 얼마나 잘게 나누느냐가 ToT의 성패를 좌우합니다.
아이디어 생성하기 (Thought Generator)
각 단계에서 가능한 다음 생각(나뭇가지)을 여러 개 만들어냅니다. 글쓰기 예시에서 ‘문단 핵심 아이디어’ 단계라면, 3~5개의 서로 다른 아이디어를 동시에 생성해보는 식입니다.
중간 평가하기 (State Evaluator)
생성된 아이디어들이 최종 목표에 얼마나 도움이 될지 LLM 스스로 평가하게 합니다. “이 아이디어는 글의 주제와 잘 맞는가?”, “논리적 비약은 없는가?” 와 같은 자기 성찰을 통해 ‘가능성 높음/낮음’ 또는 1~10점 척도로 점수를 매깁니다. 이것이 ToT의 가장 강력한 무기입니다.
최적의 길 탐색하기 (Search Algorithm)
너비 우선 탐색(BFS)이나 깊이 우선 탐색(DFS) 같은 알고리즘을 사용해, 어떤 나뭇가지를 먼저 탐색할지 결정합니다. 평가 점수가 낮은 가지는 과감히 ‘가지치기(pruning)’하여 비효율적인 탐색에 자원을 낭비하지 않죠.
압도적 성능: “24 게임”의 충격적인 결과
ToT의 위력은 실험 결과에서 명확히 드러납니다. 숫자 4개와 사칙연산으로 24를 만드는 ’24 게임’ 결과는 특히 놀랍습니다.
- 기존 CoT 방식: 성공률 4%
- ToT 적용 시: 성공률 74%
이유는 간단합니다. CoT는 첫 계산부터 틀리면 그대로 실패했지만, ToT는 여러 계산식을 동시에 시도해보고, “아, 이 길은 아니구나”라고 빠르게 판단한 뒤 다른 길로 탐색을 이어갔기 때문입니다.
그래서, 이걸 어디에 쓸 수 있을까?
ToT는 복잡한 계획, 탐색, 전략적 사고가 필요한 모든 곳에서 힘을 발휘합니다.
콘텐츠 제작
블로그 글의 여러 목차 초안을 생성한 뒤, 가장 논리적이고 흥미로운 구조를 AI가 스스로 선택하게 할 수 있습니다.
코딩 및 디버깅
여러 해결책 코드를 동시에 생성하고 각 코드의 효율성, 오류 가능성을 평가해 최적의 코드를 추천받을 수 있습니다.
비즈니스 전략 수립
신제품 출시 전략에 대해 가능한 여러 시나리오(A, B, C)를 도출하고, 각 시나리오의 장단점과 예상 ROI를 평가하여 가장 유망한 옵션을 선택하게 할 수 있습니다.
결론: ‘생각하는 법’을 넘어 ‘더 잘 생각하는 법’으로
ToT는 LLM이 단순히 텍스트를 생성하는 기계를 넘어, 스스로 생각의 과정을 설계하고, 비판하며, 최적의 해답을 찾아가는 ‘지혜로운 문제 해결사’로 진화할 수 있음을 보여준 중요한 이정표입니다.
CoT가 AI에게 ‘생각하는 법’을 가르쳤다면, ToT는 ‘더 잘 생각하는 법’, 즉 전략적으로 선택하고 비판적으로 사고하는 법을 가르칩니다. 물론 더 많은 계산이 필요하지만, 그로 인해 얻는 성능 향상은 비용을 압도하고도 남습니다.
이제 프롬프트 엔지니어링은 새로운 국면을 맞이했습니다. 여러분의 문제에 ToT의 원리를 적용하여 LLM의 잠재력을 한계까지 끌어내 보시기 바랍니다.