Layer-of-Thoughts (LoT): '제약 계층'으로 LLM 추론을 제어하다

Layer-of-Thoughts (LoT): ‘제약 계층’으로 LLM 추론을 제어하다

대규모 언어 모델(LLM)의 성능을 끌어올리기 위한 ‘X-of-Thoughts’ (CoT, ToT, GoT) 경쟁이 뜨겁습니다. 단순히 질문하고 답을 얻는 시대를 지나, 이제는 LLM이 어떻게 생각하고 추론하는지 그 과정을 설계하는 ‘프롬프트 엔지니어링’이 핵심이 되었습니다.

Chain-of-Thought (CoT)는 LLM에게 단계별 추론을 유도했고, Tree-of-Thoughts (ToT)는 여러 잠재적 경로를 탐색하게 했습니다. 더 나아가 Graph-of-Thoughts (GoT)는 생각들을 그래프로 연결해 더 복잡한 문제 해결을 시도했죠.

하지만 이 기법들은 종종 ‘생각’이 무분별하게 뻗어 나가 효율성이 떨어지고, 왜 그런 결론이 나왔는지 설명하기 어려운 문제를 안고 있었습니다.

만약, LLM의 생각을 무작정 확장하는 것이 아니라, 각 단계마다 강력한 ‘품질 검사 필터’를 적용해 가장 의미 있는 경로로만 추론을 유도할 수 있다면 어떨까요?

이 질문에 대한 답으로 최근 “Layer-of-Thoughts (LoT) Prompting” 이라는 새로운 접근 방식이 제시되었습니다. 이 방식은 ‘제약 계층(Constraint Hierarchies)’이라는 독특한 메커니즘을 도입해 LLM 추론의 정확성과 설명 가능성을 획기적으로 높였습니다.

오늘은 이 Layer-of-Thoughts (LoT)가 무엇인지, 기존 방식과 어떻게 다른지, 그리고 왜 이것이 LLM 기반 정보 검색의 미래가 될 수 있는지 심층적으로 분석해 보겠습니다.

1. LoT (Layer-of-Thoughts) 프롬프팅이란 무엇인가?

Table of Contents 숨기기

1. LoT (Layer-of-Thoughts) 프롬프팅이란 무엇인가?

LoT의 핵심 구성 요소는 두 가지입니다:

이것이 왜 중요할까요?

2. LoT의 ‘비밀 무기’: 제약 계층 (Constraint Hierarchies)

3. LoT는 실제로 작동하는가? (실험 결과)

사용 사례 1: 일본 민법 검색 (COLIEE 2024)

사용 사례 2: 규범 문장 검색 (독일 도로 교통법)

4. LoT vs. GoT/ToT: 진짜 차이점은?

5. 결론: LLM 추론의 미래는 ‘계층화’될 것이다

LoT는 다음과 같은 강력한 이점을 제공합니다:

LoT 프롬프팅은 LLM의 추론 과정을 여러 ‘레이어(Layer, 계층)’로 나누고, 각 레이어마다 ‘제약 계층(Constraint Hierarchies)’을 두어 후보 응답을 체계적으로 필터링하고 정제하는 새로운 기법입니다.

이는 GoT(Graph-of-Thoughts)에서 한 단계 더 나아간 개념입니다. LoT 역시 생각을 ‘노드(thought)’로 보는 것은 같지만, 이 생각들을 명확한 ‘계층(Layer)’으로 분할합니다.

LoT의 핵심 구성 요소는 두 가지입니다:

레이어 쏘트 (Layer thought): 각 계층의 ‘관리자’입니다. 이전 레이어에서 입력을 받아, 현재 레이어의 기준(제약)을 설정하고, 하위 ‘옵션 쏘트’를 생성하며, 그 결과물을 집계해 다음 레이어로 전달합니다.

옵션 쏘트 (Option thought): ‘관리자’의 지시를 받아 실제 부분 해답을 생성하는 ‘실무자’입니다. 특정 제약 조건에 따라 LLM을 호출해 결과를 도출합니다.

이것이 왜 중요할까요?

기존 GoT가 자유로운 ‘브레인스토밍’이었다면, LoT는 명확한 상하 관계를 가진 ‘공장 생산 라인’과 같습니다. 1번 레이어(예: 키워드 필터링)를 통과한 결과물만이 2번 레이어(예: 의미 필터링)로 넘어갈 수 있습니다.

2. LoT의 ‘비밀 무기’: 제약 계층 (Constraint Hierarchies)

LoT가 다른 ‘X-of-Thoughts’와 구별되는 가장 강력한 차별점은 바로 ‘제약 계층’의 도입입니다.

이는 단순히 생각을 나열하는 것이 아니라, 각 생각(옵션)에 ‘강도(strength)’ 또는 ‘우선순위(priority)’를 부여하는 개념입니다.

하드 제약 (Hard Constraints / Level 0): 반드시 만족해야 하는 필수 조건입니다.
(예: “문서에 ‘계약’이라는 단어가 반드시 포함되어야 함”)
소프트 제약 (Soft Constraints / Level 1+): 만족하면 좋지만 필수는 아닌, 선호되는 조건입니다.
(예: “레벨 1: ‘부동산’ 관련 내용이면 좋음”, “레벨 2: ‘임대차’ 관련 내용이면 더 좋음”)

LoT는 이 제약 계층을 활용해 각 레이어에서 ‘옵션 쏘트’가 생성한 부분 해답들을 평가하고 집계(Aggregate)합니다. 이때 여러 지표(Metrics)가 사용됩니다.

all: 모든 하드 제약을 통과해야 함 (가장 엄격함)
at-least-k: 최소 k개의 제약을 통과해야 함
max-weight (rank-weight): 각 제약의 가중치(중요도)를 고려하여 총점이 높은 순서대로 정렬

이러한 계층적 필터링 덕분에 LoT는 무의미한 탐색을 줄이고, 계산 효율성을 높이며, 왜 특정 결과가 도출되었는지 명확하게 설명할 수 있습니다.

3. LoT는 실제로 작동하는가? (실험 결과)

이론은 그럴싸합니다. 그렇다면 실제 성능은 어떨까요? 논문은 두 가지 까다로운 정보 검색(IR) 작업을 통해 LoT의 효율성을 입증했습니다.

사용 사례 1: 일본 민법 검색 (COLIEE 2024)

복잡한 법률 질문(일본 사법시험)을 보고 관련 민법 조항을 찾는 어려운 작업입니다.

LoT 적용 (3-Layer):

Layer 1 (키워드 필터링): LLM이 제안한 키워드 중 하나라도 포함된 문서 필터링.
Layer 2 (의미 필터링): LLM이 제안한 여러 의미 조건을 가장 많이 통과한 순서대로 정렬.
Layer 3 (최종 확인): 남은 후보가 정말로 원본 질문에 답이 되는지 LLM이 최종 확인.

결과:

LoT 기반 설계는 F2 점수(정밀도보다 재현율에 가중치를 둔 점수) 0.835를 기록하며, COLIEE 2024 대회의 다른 모든 시스템을 능가했습니다.

특히 주목할 점은 ‘정밀도(Precision)와 재현율(Recall)의 균형’입니다. 필터링 레이어가 없는 단순 검증 시스템은 재현율은 높았지만(0.885), 관련 없는 문서를 대거 포함해 정밀도가 0.432로 매우 낮았습니다.

반면 LoT는 정밀도(0.838)와 재현율(0.839) 모두 높은 균형 잡힌 성능을 보여주었습니다.

사용 사례 2: 규범 문장 검색 (독일 도로 교통법)

자율 주행 시스템을 위해, 판례에 숨겨진 암묵적인 교통 법규(규범 문장)를 찾아내는 작업입니다.

LoT 적용 (3-Layer):

Layer 1 (키워드 필터링): 교통 법규 키워드 및 유사 키워드가 2개 이상 포함된 문장 필터링.
Layer 2 (규범성 분류): LLM이 각 문장의 ‘규범성 점수’를 0~100점으로 평가 (70점 이상 통과).
Layer 3 (최종 확인): 규범성 점수가 높은 문장들 중 원본 법률과 가장 관련성 높은 Top 10 추출.

결과:

LoT 방식은 0.966이라는 매우 높은 재현율(Recall)을 달성했습니다. 이는 법률 맥락에서 중요한 문장을 거의 놓치지 않았음을 의미합니다. BM25나 CoT 같은 다른 기준 모델들보다 전반적으로 우수한 성능(F2 점수)을 보였습니다.

4. LoT vs. GoT/ToT: 진짜 차이점은?

“LoT도 결국 그래프의 한 종류가 아니냐”고 물을 수 있습니다. 맞습니다. LoT는 GoT의 하위 개념 또는 특정 구현 방식이라고 볼 수 있습니다. 하지만 그 ‘구조’와 ‘제약’에서 결정적인 차이가 있습니다.

특징	Chain-of-Thought (CoT)	Tree-of-Thought (ToT)	Graph-of-Thought (GoT)	Layer-of-Thought (LoT)
구조	선형 (단일 경로)	트리 (분기)	일반 그래프 (순환, 병합)	계층적 그래프 (Layered)
탐색 방식	단일 경로 추론	여러 잠재적 경로 탐색	생각의 자유로운 연결/병합	계층별 순차적 필터링
핵심 메커니즘	“단계별로 생각해 봐”	“여러 가능성을 생각해 봐”	“생각들을 연결/개선해 봐”	“이 ‘제약’을 통과하는 생각만 다음 단계로 가”
주요 장점	단순함	탐색적 문제 해결	유연성, 복잡한 추론	효율성, 설명 가능성, 정확성

GoT가 아이디어를 자유롭게 연결하는 ‘브레인스토밍’에 가깝다면, LoT는 엄격한 ‘품질 게이트’가 있는 ‘단계별 승인 프로세스’에 가깝습니다. 이 구조화된 접근 방식이 바로 LoT가 복잡한 검색 작업에서 더 효율적이고 정확한 이유입니다.

5. 결론: LLM 추론의 미래는 ‘계층화’될 것이다

Layer-of-Thoughts (LoT) 프롬프팅은 ‘X-of-Thoughts’ 패러다임의 논리적인 다음 단계를 제시합니다. 이는 단순히 더 복잡한 생각의 구조를 만드는 것이 아니라, ‘제약 계층’이라는 명확한 필터링 메커니즘을 도입하여 추론 과정을 ‘설계’하고 ‘제어’하겠다는 아이디어입니다.

LoT는 다음과 같은 강력한 이점을 제공합니다:

향상된 정확성: 단계별 필터링을 통해 관련 없는 후보를 조기에 제거하여 정밀도와 재현율의 균형을 맞춥니다.
뛰어난 설명 가능성: 각 레이어와 제약 조건을 통해 왜 특정 결과가 선택되었는지 명확히 추적할 수 있습니다. 이는 법률, 의료 등 신뢰성이 중요한 분야에서 필수적입니다.
효율적인 확장성: 계층 구조는 불필요한 탐색을 줄여 대규모 말뭉치를 다룰 때 계산 오버헤드를 관리하는 데 유리합니다.

물론 LoT도 만능은 아닙니다. 하지만 분명한 것은, LLM이 더 복잡한 실제 문제를 해결하기 위해서는 LoT가 보여준 것처럼 더 구조화되고, 제어 가능하며, 설명 가능한 추론 방식이 필요하다는 것입니다.

CoT로 시작된 ‘생각의 흐름’은 이제 LoT를 통해 체계적인 ‘생각의 계층’으로 진화하고 있습니다.

Layer-of-Thoughts (LoT): ‘제약 계층’으로 LLM 추론을 제어하다