중앙의 AI 코어와 연결된 여러 데이터 노드를 통해 복잡한 추론 과정이 진행되는 모습을 표현한 디지털 이미지. Bias Prompting(편향 프롬프팅)의 다각적 데이터 처리 및 LLM의 작동 원리를 시각화함.
|

Bias Prompting: CoT보다 토큰 비용 아끼고 정확도 높이는 법

Bias Prompting: CoT보다 토큰 비용 아끼고 정확도 높이는 법

LLM(대규모 언어 모델)을 다루는 엔지니어라면 누구나 공감하는 골치 아픈 문제가 하나 있습니다. 바로 ‘비용’과 ‘성능’ 사이의 줄타기입니다.

우리는 모델이 더 똑똑해지기를 바라며 CoT(Chain-of-Thought)를 적용하지만, 그 대가는 혹독합니다. 프롬프트가 길어지고, 추론 시간이 늘어나며, 결국 막대한 토큰 비용 청구서로 돌아오니까요.

그런데 만약, 모델에게 “일부러 편향된 생각”을 주입해서 더 적은 비용으로 더 정확한 답을 얻을 수 있다면 어떨까요? 싱가포르 난양공대(NTU) 연구진이 제안한 Bias Prompting(편향 프롬프팅)은 기존의 상식을 뒤집는 흥미로운 접근법입니다.

어떻게 “편향(Bias)”을 더하는 것이 오히려 “공정한 정답”을 도출하는지, 그 논리를 분석해 봅니다.


1. LLM이 객관식 문제에서 실패하는 이유: “게으른 직관”

먼저 문제의 본질부터 짚어보죠. LLM에게 다음과 같은 객관식 문제를 던지면 종종 엉뚱한 답을 내놓습니다.

질문: 잡지(Magazines)를 다른 인쇄물과 함께 볼 수 있는 곳은?
A. 병원 B. 서점 C. 시장 …

사람도 마찬가지지만, 모델은 ‘게으른 뇌’를 가지고 있습니다. 보기를 순서대로 읽다가 A(병원)를 보는 순간, “어? 병원 대기실에 잡지 많지.”라고 생각하고 뒤에 있는 B(서점)나 다른 보기들을 깊게 고민하지 않고 탐색을 멈춰버립니다. 이를 선택 편향(Selection Bias)이라고 합니다.

기존의 CoT는 “단계별로 차근차근 생각해”라고 지시해서 이를 해결하려 했지만, 이는 모델이 불필요한 말을 길게 늘어놓거나(토큰 낭비), 엉뚱한 논리에 빠지는(Hallucination) 부작용이 있었습니다.


2. Bias Prompting: “모든 보기가 정답이라고 우겨봐라”

Bias Prompting의 해결책은 간단하면서도 직설적입니다. 모델을 ‘악마의 변호인’으로 만드는 겁니다. “정답을 찾아라”가 아니라, “모든 보기가 정답이라고 가정하고 근거를 대라”고 시킵니다.

구조는 다음과 같이 2단계로 나뉩니다.

Step 1: 강제 추론 (Reasoning Generation)

모든 선택지에 대해 억지로라도 근거를 만들게 시킵니다.

가정 A (병원): “정답은 병원이야. 왜냐하면 대기실에 환자용 잡지가 비치되어 있으니까.”
가정 B (서점): “정답은 서점이야. 왜냐하면 서점은 원래 인쇄물을 파는 곳이니까.”
가정 E (영안실): “정답은 영안실이야. 왜냐하면 유가족 대기실에 읽을거리가 있을 수 있으니까.”

평소라면 무시했을 선택지까지 강제로 들여다보게 만드는 과정입니다.

Step 2: 논리 대결 (Reasoning-Guided Agreement)

이제 모델은 모든 보기에 대한 ‘방어 논리’를 확보했습니다. 두 번째 단계에서는 이 근거들을 식탁 위에 올려놓고 냉정하게 비교합니다. “자, 누구의 변론이 가장 타당한가?”

단순 직관이 아니라, 확보된 맥락(Context)을 바탕으로 논리적 우위를 점하는 답을 선택하게 하는 것이죠.


3. 결과 분석: 가성비와 성능의 역설

연구진이 Mistral-7B, Gemma-7B 등 다양한 모델로 실험한 결과는 시사하는 바가 큽니다.

정확도(Accuracy)

대부분의 벤치마크에서 기존 CoT보다 높은 정답률을 보였습니다. (Gemma 모델은 11.7% 향상)

효율성(Efficiency)

여기가 핵심입니다. CoT는 정답을 찾기 위해 장황한 추론을 생성하지만, Bias Prompting은 각 보기에 대한 짧고 명확한 근거만 생성하면 됩니다. 결과적으로 더 적은 토큰으로 더 높은 성능을 냈습니다.

견고함(Robustness)

객관식 보기 순서만 바꿔도 답이 달라지는 LLM의 고질병(Position Bias)이 해결되었습니다. 모든 보기를 공평하게 검토했기 때문입니다.


4. 마치며: 편향으로 편향을 잡다

이 논문이 우리에게 던지는 메시지는 명쾌합니다. LLM의 성능을 높이기 위해 무조건 복잡한 에이전트나 비싼 CoT를 쓸 필요는 없다는 것입니다.

오히려 모델에게 다양한 관점의 ‘고의적 편향’을 주입함으로써, 역설적으로 가장 ‘편향되지 않은’ 결론에 도달했습니다.

여러분의 프롬프트에도 이 전략을 적용해 보세요. 비용은 줄이고, 논리는 더 단단해질 수 있습니다.

Similar Posts