Bias Prompting: CoT보다 토큰 비용 아끼고 정확도 높이는 법

사람도 마찬가지지만, 모델은 ‘게으른 뇌’를 가지고 있습니다. 보기를 순서대로 읽다가 A(병원)를 보는 순간, “어? 병원 대기실에 잡지 많지.”라고 생각하고 뒤에 있는 B(서점)나 다른 보기들을 깊게 고민하지 않고 탐색을 멈춰버립니다. 이를 선택 편향(Selection Bias)이라고 합니다.

기존의 CoT는 “단계별로 차근차근 생각해”라고 지시해서 이를 해결하려 했지만, 이는 모델이 불필요한 말을 길게 늘어놓거나(토큰 낭비), 엉뚱한 논리에 빠지는(Hallucination) 부작용이 있었습니다.

2. Bias Prompting: “모든 보기가 정답이라고 우겨봐라”

Bias Prompting의 해결책은 간단하면서도 직설적입니다. 모델을 ‘악마의 변호인’으로 만드는 겁니다. “정답을 찾아라”가 아니라, “모든 보기가 정답이라고 가정하고 근거를 대라”고 시킵니다.

구조는 다음과 같이 2단계로 나뉩니다.

Step 1: 강제 추론 (Reasoning Generation)

모든 선택지에 대해 억지로라도 근거를 만들게 시킵니다.

가정 A (병원): “정답은 병원이야. 왜냐하면 대기실에 환자용 잡지가 비치되어 있으니까.”
가정 B (서점): “정답은 서점이야. 왜냐하면 서점은 원래 인쇄물을 파는 곳이니까.”
가정 E (영안실): “정답은 영안실이야. 왜냐하면 유가족 대기실에 읽을거리가 있을 수 있으니까.”

평소라면 무시했을 선택지까지 강제로 들여다보게 만드는 과정입니다.

Step 2: 논리 대결 (Reasoning-Guided Agreement)

이제 모델은 모든 보기에 대한 ‘방어 논리’를 확보했습니다. 두 번째 단계에서는 이 근거들을 식탁 위에 올려놓고 냉정하게 비교합니다. “자, 누구의 변론이 가장 타당한가?”

단순 직관이 아니라, 확보된 맥락(Context)을 바탕으로 논리적 우위를 점하는 답을 선택하게 하는 것이죠.

3. 결과 분석: 가성비와 성능의 역설

연구진이 Mistral-7B, Gemma-7B 등 다양한 모델로 실험한 결과는 시사하는 바가 큽니다.

정확도(Accuracy)

대부분의 벤치마크에서 기존 CoT보다 높은 정답률을 보였습니다. (Gemma 모델은 11.7% 향상)

효율성(Efficiency)

여기가 핵심입니다. CoT는 정답을 찾기 위해 장황한 추론을 생성하지만, Bias Prompting은 각 보기에 대한 짧고 명확한 근거만 생성하면 됩니다. 결과적으로 더 적은 토큰으로 더 높은 성능을 냈습니다.

견고함(Robustness)

객관식 보기 순서만 바꿔도 답이 달라지는 LLM의 고질병(Position Bias)이 해결되었습니다. 모든 보기를 공평하게 검토했기 때문입니다.

4. 마치며: 편향으로 편향을 잡다

이 논문이 우리에게 던지는 메시지는 명쾌합니다. LLM의 성능을 높이기 위해 무조건 복잡한 에이전트나 비싼 CoT를 쓸 필요는 없다는 것입니다.

오히려 모델에게 다양한 관점의 ‘고의적 편향’을 주입함으로써, 역설적으로 가장 ‘편향되지 않은’ 결론에 도달했습니다.

여러분의 프롬프트에도 이 전략을 적용해 보세요. 비용은 줄이고, 논리는 더 단단해질 수 있습니다.

Bias Prompting: CoT보다 토큰 비용 아끼고 정확도 높이는 법

1. LLM이 객관식 문제에서 실패하는 이유: “게으른 직관”