프롬프트 브리틀니스 해결: Mixture of Formats(MOF) 완벽 가이드
AI 서비스를 개발하거나 프롬프트를 깎아본 분들이라면 이런 미스터리를 겪어보셨을 겁니다.
“분명 어제는 정답을 말하던 녀석이, 오늘은 왜 엉뚱한 소리를 하지?”
알고 보니 바뀐 건 예시 사이의 줄바꿈 한 칸, 혹은 콜론(:) 기호 하나뿐입니다. 학계에서는 이를 ‘프롬프트 브리틀니스(Prompt Brittleness)’라고 부릅니다. 거창한 용어지만, 우리말로는 ‘유리 멘탈’이라고 이해하면 쉽습니다. 사소한 충격에도 성능이 와장창 깨진다는 뜻이죠.
오늘은 이 유리 멘탈을 강화 유리에 가깝게 만드는 2025년 4월의 흥미로운 연구, “Mixture of Formats (MOF)”를 소개합니다. 복잡한 파인튜닝 없이 프롬프트 스타일만 바꿔서 해결하는, 아주 경제적인 방법입니다.
문제: AI는 ‘내용’보다 ‘껍데기’를 본다
LLM(대규모 언어 모델)은 겉보기엔 똑똑해 보이지만, 실상은 융통성 없는 모범생에 가깝습니다. 질문의 핵심(의미)보다 질문이 제시된 형태(형식)에 과도하게 집착합니다.
논문은 다음과 같은 비의미적인 변화(Non-semantic changes)가 모델을 망친다고 지적합니다.
- 예제 사이에 공백(Space)을 넣었을 때
- ::를 :로 바꿨을 때
- 퓨샷(Few-shot) 예제의 순서를 바꿨을 때
잘못된 사례: 기존 방식의 취약점
프롬프트: (Question: Answer: 형식 사용)
결과: 모델이 “프랑스”라고 오답을 냄.
수정: 형식을 아주 조금 바꿈.
결과: 모델이 “이탈리아”라고 정답을 냄.
이런 변동성(Spread)은 치명적입니다. 금융이나 의료처럼 신뢰도가 생명인 분야에서, 기분 따라 답이 바뀌는 AI를 어떻게 믿고 쓸까요? 기존에는 이를 막기 위해 수만 번의 테스트를 거쳐 ‘단 하나의 완벽한 프롬프트’를 찾으려 했지만, 이건 너무 비효율적인 싸움입니다.
발상: 컴퓨터 비전에서 훔쳐온 아이디어
연구진은 이 문제를 해결하기 위해 컴퓨터 비전(Computer Vision) 분야를 참고했습니다.
이미지 인식 모델을 가르칠 때를 생각해봅시다. 고양이 사진의 배경이 낮이든 밤이든, 흑백이든 컬러든 모델은 ‘고양이’라고 인식해야 합니다. 그래서 일부러 다양한 스타일의 이미지를 학습시키죠.
“프롬프트도 똑같지 않을까?”
연구진의 가설은 단순했습니다. 모델이 특정 형식(예: Q: A:)을 정답의 신호로 착각하지 않게 하려면, 처음부터 형식을 마구 섞어서 보여주면 된다는 것입니다. 이것이 Mixture of Formats (MOF)의 핵심입니다.
해결책: MOF 적용 2단계
적용 방법은 놀라울 정도로 간단합니다. 퓨샷(Few-shot) 프롬프트를 작성할 때 딱 두 가지만 기억하면 됩니다.
Step 1: 예제마다 다른 옷 입히기
보통 우리는 5개의 예시를 줄 때(5-shot), 통일성을 위해 5개 모두 똑같은 형식을 사용합니다. 하지만 MOF는 정반대입니다. 일부러 다르게 씁니다.
기존 방식 (Bad):
- 예시 1: Q – A
- 예시 2: Q – A
- 예시 3: Q – A
MOF 방식 (Good):
- 예시 1: Question: … Answer: …
- 예시 2: System Ref: … Answer: …
- 예시 3: Tweet: … Label: …
이렇게 섞어놓으면 모델은 “아, 형식이 중요한 게 아니구나. 내용이 중요하구나”라고 학습(In-context Learning)하게 됩니다.
Step 2: “다시 써봐”라고 시키기 (Rewrite)
이게 이 논문의 ‘킥(Kick)’입니다. 프롬프트 내에서 모델에게 “이 예제를 의미는 바꾸지 말고 다른 형식으로 다시 써봐”라고 지시합니다.
모델이 스스로 내용을 유지한 채 껍데기만 바꾸는 과정을 거치게 함으로써, 형식과 내용을 분리하는 능력을 강제로 훈련시키는 원리입니다.
효과: Llama-3의 환골탈태
이 간단한 조치가 정말 효과가 있었을까요? Llama-3-70b, Falcon-11B 등 다양한 모델로 테스트한 결과는 충격적이었습니다.
찍기 수준에서 고득점으로 (Task 317)
고정관념 탐지 과제에서 기존 방식의 최저 정확도는 13.9%였습니다. (거의 찍는 수준)
MOF 적용 후 최저 정확도는 71.2%로 5배 이상 급상승했습니다.
더 단단해진 방어력 (Task 280)
Llama-3-70b 기준, MOF를 적용했을 때 최악의 경우(Min Accuracy)가 기존 방식의 최고 기록(Max Accuracy)보다 높게 나왔습니다. (88.0% vs 86.0%)
즉, 단순히 평균 점수만 오르는 게 아니라, 어떤 상황에서도 멍청한 답을 내놓지 않도록(Low Variance) 모델의 지능을 근본적으로 끌어올린 셈입니다.
결론 및 요약
우리는 그동안 ‘마법의 프롬프트 템플릿’ 하나를 찾기 위해 너무 많은 시간을 낭비했는지도 모릅니다. 이번 MOF 논문이 주는 교훈은 명확합니다.
“완벽한 형식을 찾지 말고, 다양한 형식을 섞어라.”
여러분의 AI가 사소한 변화에도 흔들린다면, 오늘 당장 퓨샷 예제들의 스타일을 비빔밥처럼 섞어보세요. 훨씬 더 견고하고 똑똑해진 답변을 마주하게 될 것입니다.
📌 3줄 요약
- 문제: LLM은 띄어쓰기나 기호 같은 사소한 형식 변화에 매우 취약하다(Prompt Brittleness).
- 해결: 퓨샷 예제마다 서로 다른 포맷을 적용하고, 모델이 이를 재작성(Rewrite)하게 유도하라.
- 결과: 추가 학습 없이 프롬프트 수정만으로 모델의 최저 성능과 안정성이 획기적으로 개선된다.
