인과적 어텐션을 상징하는 눈 가리개를 한 말의 그림과 프롬프트 순서(Passage, Question, Options)에 따른 LLM 성능 차이를 설명하는 도식화 이미지
|

프롬프트 순서만 바꿔도 성능 14% 향상? LLM 최적화의 비밀

프롬프트 순서만 바꿔도 성능 14% 향상? LLM 최적화의 비밀

내용은 똑같은데 순서만 바꿨을 뿐인데 AI 성능이 14%나 차이 난다면 믿으시겠습니까?

RAG 시스템을 구축하거나 복잡한 프롬프트를 설계할 때, 혹시 “내용만 다 들어있으면 순서는 상관없겠지?”라고 생각해보신 적 있나요?

만약 그렇다면, 여러분의 AI 모델은 지금 가진 성능의 10% 이상을 허공에 날리고 있을지도 모릅니다. 최근 발표된 연구 ‘Lost in the Prompt Order’는 우리의 이런 안일한 직관을 완전히 뒤집어 놓았습니다. 프롬프트 내 정보 배치(지문, 질문, 보기)를 살짝 바꾸는 것만으로도 정답률이 무려 14%나 널뛰기 때문입니다.

단순한 버그일까요, 아니면 모델의 한계일까요? 오늘은 이 현상의 주범인 ‘인과적 어텐션(Causal Attention)’의 비밀과 이를 해결할 실전 팁을 정리해 드립니다.


실험 결과: 순서가 지능을 결정한다

연구진은 LLaMA 3, Qwen 2.5 같은 주요 모델들을 대상으로 객관식 문제(MCQA)를 풀게 했습니다. 내용은 똑같고 배치 순서만 바꿨죠.

  • CQO 방식 (지문 → 질문 → 보기): 우리가 흔히 쓰는 정석적인 방식입니다.
  • QOC 방식 (질문 → 보기 → 지문): 질문과 보기를 먼저 던지고 지문을 나중에 주는 방식입니다.

결과는 충격적이었습니다. CQO는 평균 69.3%의 정확도를 보인 반면, QOC는 54.5%에 그쳤습니다. 무려 14.7%p나 하락한 겁니다. 지문이 길어질수록 이 격차는 더 벌어졌습니다. 순서 하나 바꿨을 뿐인데 똑똑하던 AI가 갑자기 ‘멍청이’가 된 셈이죠.


왜 QOC에서 모델은 고장 날까?

기억력이 나빠서일까요? 아닙니다. 테스트 결과 모델은 뒤에 나온 지문을 읽으면서도 앞선 보기 내용을 완벽하게 기억하고 있었습니다. 진짜 범인은 모델의 설계 방식인 ‘인과적 어텐션 마스크(Causal Attention Mask)’에 있습니다.

쉽게 비유해 보겠습니다. GPT 같은 디코더(Decoder) 모델은 ‘앞만 보고 달리는 경주마’와 같습니다.

일상적 비유

  • 정상적인 상황: 수능 국어 지문을 다 읽은 뒤 문제를 풉니다. (지문 정보를 머리에 넣은 상태로 보기를 해석함)
  • QOC 상황: 지문은 보지도 못한 채 ‘보기 1번’부터 읽어야 합니다. 1번 내용이 맞는지 틀린지 판단할 근거가 뒤에 있으니, 읽는 순간에는 아무런 판단을 못 하고 그냥 글자만 훑게 됩니다.

즉, 모델이 보기를 처리할 때 정작 중요한 힌트(지문)가 뒤에 있으면, Causal Masking 때문에 뒤의 내용을 미리 볼 수 없어 보기에 대한 깊이 있는 해석(Context-aware representation)을 포기하게 됩니다. 나중에 지문을 다 읽고 정답을 고르려 해도, 이미 ‘무색무취’하게 처리된 보기 정보로는 정확한 판단이 어려운 것이죠.


실전 프롬프트 처방전

원인을 알았으니 해결책은 간단합니다. 모델의 시야를 가리지 않도록 배치하면 됩니다.

✅ Case 1: RAG 시스템의 경우

❌ 나쁜 사례:

“다음 질문에 답해줘: [질문]. 참고할 문서는 여기 있어: [검색된 문서]”

⭕ 좋은 사례:

[검색된 문서]를 먼저 배치하고, 그 뒤에 [질문]을 배치하세요.”

이유: 지문을 먼저 읽어야 질문과 보기를 해석할 때 ‘아, 이 내용이 아까 그 지문에 있었지!’라며 중요도를 실시간으로 계산할 수 있습니다.

✅ Case 2: 어쩔 수 없이 지문이 뒤로 가야 한다면? (QOCO 전략)

구조상 질문을 먼저 던져야 하는 상황이라면 ‘보기를 한 번 더’ 말해주세요.

구조: 질문 → 보기 → 지문 → 보기 다시 언급

연구 결과, 이렇게 보기를 한 번 더 반복해주기만 해도 성능이 약 8.2% 회복되었습니다. 지문을 다 읽은 상태에서 보기를 다시 보니 비로소 ‘아까 그 내용’과 연결이 되기 때문입니다.


에필로그: 구조가 곧 지능입니다

이번 연구가 주는 교훈은 명확합니다. LLM에게 “무엇을 입력하느냐”만큼 중요한 것이 “어떤 순서로 입력하느냐”라는 점입니다. 14%의 성능 차이는 모델 사이즈를 한 체급 올리는 것보다 더 큰 효과를 낼 수 있는 수치입니다.

지금 바로 여러분의 프롬프트 코드를 확인해 보세요. 혹시 중요한 참고 자료를 맨 뒤에 ‘부록’처럼 던져주고 있지는 않나요?

내일 당장 프롬프트의 지문과 질문 위치만 바꿔보시는 건 어떨까요? 의외로 막혔던 답변 품질이 단번에 해결될지도 모릅니다.

Similar Posts