RaR 프롬프트: 질문 재구성 하나로 AI 할루시네이션 해결하기

“마더 테레사는 짝수 달에 태어났습니까?” 이 간단한 질문에 AI가 황당한 답변을 내놓는 이유는 무엇일까요?

여러분이 AI에게 이렇게 물었다고 가정해 봅시다. 당연히 똑똑한 AI니까 정답을 말할 것 같죠? 하지만 놀랍게도 “아니요, 8월은 홀수 달입니다”라는 황당한 답변을 내놓기도 합니다. 8월이 8번째 달, 즉 짝수라는 건 초등학생도 아는 사실인데 말이죠.

도대체 최첨단 AI에게 무슨 일이 일어난 걸까요? 단순히 모델이 멍청해서가 아닙니다. 이는 ‘인간’과 ‘AI’가 세상을 이해하는 사고의 틀(Frame)이 다르기 때문입니다.

오늘은 UCLA 연구진이 발표한 최신 논문 “Rephrase and Respond(RaR)”를 바탕으로, AI의 숨겨진 잠재력을 100% 끌어올려 정답률을 100% 가까이 높이는 프롬프트 엔지니어링 비법을 소개합니다.

복잡한 프롬프트는 필요 없습니다. 딱 한 문장만 추가하면 됩니다.

왜 내 프롬프트는 실패할까?

Table of Contents 숨기기

우리는 흔히 “개떡같이 말해도 찰떡같이 알아들어라”라고 말하지만, LLM(거대언어모델)에게는 통하지 않는 말입니다.

사람 간의 대화에서도 오해는 발생합니다. 하물며 인간과 AI 사이는 오죽할까요? 이를 ‘프레임의 불일치(Disparity between frames)’라고 합니다.

앞선 ‘마더 테레사’ 예시를 다시 볼까요?

질문 자체가 모호하면 AI는 자신의 학습 데이터 내에서 길을 잃습니다. 우리가 보기엔 명확한 질문도 AI에게는 모호할 수 있다는 것이죠. 이 간극을 메우지 않으면 아무리 좋은 모델을 써도 할루시네이션(거짓 답변)을 피할 수 없습니다.

UCLA 연구진은 아주 간단하지만 강력한 해결책을 제시했습니다. 바로 “AI가 스스로 질문을 다시 말하게(Rephrase) 하고 답변(Respond)하게 하는 것”입니다.

사람끼리 대화할 때도, 상대방의 질문이 이해가 안 가면 “아, 그러니까 네 말은 ~라는 뜻이지?”라고 되묻잖아요? 이 과정을 프롬프트에 적용하는 겁니다.

가장 쉬운 방법은 여러분의 질문 뒤에 아래 명령어를 붙이는 것입니다.

"{당신의 질문}"

Rephrase and expand the question, and respond.
(질문을 재구성하고 확장한 뒤, 답변하세요.)

이렇게만 해도 AI는 답변하기 전에 질문을 스스로 구체화합니다.

예를 들어, “에드거 밥(Edgar Bob)이라는 이름의 각 단어 마지막 글자를 합치면?”이라는 질문을 던지면 AI는 엉뚱한 답을 내놓기 쉽습니다. 하지만 RaR을 적용하면 다음과 같이 사고합니다.

AI의 재구성: “문구 ‘Edgar Bob’의 각 단어에서 마지막 글자를 추출하여 새로운 문자열로 결합해 줄 수 있습니까?”

AI의 답변: “Edgar의 마지막은 ‘r’, Bob의 마지막은 ‘b’입니다. 합치면 ‘rb’입니다.”

놀랍게도 이 간단한 과정만으로 기존에 실패했던 추론 문제들을 완벽하게 해결했습니다.

만약 더 복잡한 문제를 해결해야 한다면, Two-step RaR을 추천합니다. 이 방법은 ‘질문을 다듬는 AI’와 ‘답변하는 AI’를 분리하거나 단계를 나누는 것입니다.

실험 결과, 똑똑한 모델(GPT-4)이 질문을 재구성해주면, 성능이 다소 떨어지는 모델(Vicuna 등)도 훨씬 더 정확한 답변을 내놓을 수 있었습니다. 즉, ‘질문의 품질’이 ‘모델의 지능’을 보완해주는 것입니다.

프롬프트 엔지니어링에 관심 있는 분이라면 “단계별로 생각해서 답해줘 (Let’s think step by step)”라는 CoT(Chain-of-Thought) 기법을 아실 겁니다. 과연 RaR은 CoT보다 좋을까요?

논문의 실험 결과는 흥미롭습니다.

상호보완적 관계: RaR은 CoT와 경쟁하는 것이 아니라 보완합니다. RaR로 질문을 명확히 하고, CoT로 논리적으로 풀면 성능은 더욱 강력해집니다.
CoT의 약점 해결: 중국어 사자성어 문제나 편향성 테스트(StereoSet) 같은 특정 작업에서는 CoT가 오히려 할루시네이션을 유발하여 성능을 떨어뜨리기도 했습니다. 반면 RaR은 질문의 의도 자체를 명확히 하기에 훨씬 안정적인 성능(공정성 점수 향상 등)을 보였습니다.
압도적 성능 향상: 특히 ‘마지막 글자 이어붙이기’ 같은 상징적 추론(Symbolic Reasoning) 작업에서 기존 방식의 정확도는 50%대였으나, RaR 적용 후 거의 100%에 가까운 정확도를 기록했습니다.

우리는 종종 AI가 멍청하다고 탓하지만, 사실은 우리의 질문이 AI의 ‘사고 프레임’에 맞지 않았을 수 있습니다. 이제부터는 AI에게 무작정 답을 요구하지 말고, “내가 한 질문이 무슨 뜻인지 먼저 설명해볼래?”라고 기회를 주세요.

여러분의 프롬프트 끝에 딱 한 줄만 추가하세요.

Rephrase and expand the question, and respond.
(질문을 재구성하고 확장한 뒤, 답변하세요.)

이 작은 습관이 여러분의 AI 생산성을 획기적으로 바꿔놓을 것입니다. 지금 바로 ChatGPT나 Claude를 켜서, 평소에 오답을 내던 질문에 이 마법의 문장을 붙여보세요!