프롬프트 엔지니어링: AI의 창의적 추론 능력을 깨우는 5단계 최적화 가이드

혹시 GPT-4 같은 최신 AI 모델에게 정말 까다로운 질문을 던졌다가, 논리적인 듯하지만 어딘가 엉뚱한 답변을 받아본 적 없으신가요? AI는 순차적이고 논리적인 문제(수직적 사고)는 놀라울 정도로 잘 풀지만, 고정관념을 깨는 창의적인 문제(수평적 사고) 앞에서는 종종 길을 잃곤 합니다.

이는 마치 뛰어난 수학자가 난센스 퀴즈 앞에서 머리를 긁적이는 것과 같습니다. AI가 방대한 데이터를 ‘암기’하는 능력은 뛰어나지만, 진짜 ‘추론’ 능력, 특히 ‘틀을 깨는 생각’을 하는 능력은 여전히 큰 도전 과제입니다.

그런데 최근 콜로라도 대학교 연구팀이 ‘Mothman’이라는 흥미로운 시스템을 통해 이 문제를 해결할 실마리를 제시했습니다. 이들은 단순히 더 좋은 프롬프트를 ‘만드는’ 것을 넘어, 프롬프트를 ‘최적화’하는 체계적인 반복 시스템을 구축하여 AI의 창의적 추론 능력을 획기적으로 끌어올렸습니다.

이 글에서는 해당 연구 논문 “Mothman at SemEval-2024 Task 9”을 바탕으로, 여러분의 AI 프롬프트를 한 단계 업그레이드할 수 있는 ‘반복적 프롬프트 최적화 시스템’의 핵심 원리와 구체적인 적용 방법을 알기 쉽게 설명해 드립니다.

AI를 함정에 빠뜨리는 ‘수평적 사고’ 문제란?

Table of Contents 숨기기

AI를 함정에 빠뜨리는 ‘수평적 사고’ 문제란?

핵심 아이디어: 5단계 ‘반복적 프롬프트 최적화’ 시스템

결과는 놀라웠다: 단순 프롬프트 vs 최적화 프롬프트

내 프롬프트에 ‘Mothman 시스템’ 적용하기 (실전 가이드)

결론: 프롬프트 엔지니어링은 ‘창조’가 아닌 ‘설계’의 영역으로

먼저, AI가 왜 이런 문제에 취약한지 이해해야 합니다. 연구팀이 도전한 과제는 ‘BRAINTEASER’라는 이름의 수평적 사고 퍼즐 데이터셋입니다. 이 퍼즐들은 일부러 오해를 유발하거나 상식 밖의 답변을 요구하는 질문들로 가득 차 있습니다.

예를 들어 이런 식이죠.

질문: 사무엘은 산책 중에 비를 만났습니다. 그는 우산도, 모자도 없었습니다. 옷은 흠뻑 젖었지만, 머리카락은 한 올도 젖지 않았습니다. 어떻게 이런 일이 가능할까요?

그는 머리를 염색했다.
그는 대머리다.
그는 비를 피하기 위해 거꾸로 걸었다.
답이 없다.

정답은 ‘그는 대머리다’입니다. 이처럼 수평적 사고 문제는 질문의 단어 자체에 매몰되지 않고, 상황의 전제를 뒤집어 생각해야 풀 수 있습니다. AI는 ‘머리카락’이라는 단어에 집중한 나머지, ‘머리카락이 없는’ 상황을 쉽게 떠올리지 못합니다.

연구팀은 여기서 한 발 더 나아가 ‘적대적 데이터셋(Adversarial Datasets)’을 사용했습니다. 원본 질문(Base)의 의미는 유지하되 문장 구조를 바꾸거나(SR), 오해를 유발하는 전제는 남겨두고 상황 맥락을 완전히 바꿔버리는(CR) 식이죠. 이는 AI가 단순히 인터넷에서 본 답을 외워서 맞히는 것을 방지하고, 진짜 추론 능력을 테스트하기 위함입니다.

핵심 아이디어: 5단계 ‘반복적 프롬프트 최적화’ 시스템

연구팀이 제안한 ‘Mothman’ 시스템의 핵심은 인간의 피드백을 활용해 연쇄적 사고(Chain-of-Thought, CoT) 프롬프트를 점진적으로 개선하는 것입니다. 마치 셰프가 요리를 맛보며 레시피를 계속 수정해 완벽한 맛을 찾아가는 과정과 같습니다.

이 시스템은 다음과 같은 5단계의 순환 구조로 이루어집니다:

1단계: 무작위 샘플링 및 초기 CoT 프롬프트 제작

처음에는 훈련 데이터에서 몇 가지 예시를 뽑아 기본적인 CoT 프롬프트를 만듭니다. 이 단계의 목표는 ‘일단 한번 시도해보는 것’입니다. 이 단순한 시도만으로도 쉽게 해결되는 문제들을 걸러내고, AI가 어떤 유형의 문제에서 실패하는지에 대한 초기 데이터를 얻을 수 있습니다.
2단계: 실패 유형 분석 및 데이터 분류

초기 프롬프트로 실행한 결과, AI가 내놓은 답변의 추론 과정을 분석합니다. 이때 “왜 틀렸을까?”를 깊이 파고들어, 실패하는 패턴이나 특정 카테고리를 찾아냅니다. 예를 들어, 연구팀은 질문의 주제(수학, 물리 등)보다는 질문의 구조(원본, 문장 변형, 맥락 변형)가 AI 성능에 더 큰 영향을 미친다는 사실을 발견했습니다.
3단계: 인간 평가를 통한 문제점 심층 분석

AI가 특히 어려워하는 문제들을 따로 모아 사람에게 직접 풀게 합니다. 이를 통해 AI만의 문제가 아닌, 인간에게도 어려운 까다로운 문제들을 식별할 수 있습니다. 연구팀은 이 과정에서 특히 ‘맥락이 변형된(CR)’ 질문들이 여러 개의 논리적 답을 가질 수 있거나 전제가 불분명하여 풀기 어렵다는 점을 발견했습니다.
4단계: 분석 결과를 반영한 CoT 프롬프트 개선

2, 3단계에서 발견한 통찰을 바탕으로 CoT 프롬프트를 수정합니다. 연구팀은 AI가 정답을 찾는 것뿐만 아니라 ‘오답이 왜 오답인지’를 설명하도록 유도하는 방식이 효과적이라는 것을 알아냈습니다. 이는 AI가 질문의 의미와 피상적으로 관련된 그럴싸한 오답을 스스로 반박하고 제거하도록 훈련시키는 효과를 가져옵니다.
5단계: (선택) 데이터셋 자체의 문제점 식별

이 과정은 단순히 프롬프트를 개선하는 데 그치지 않고, 훈련에 사용되는 데이터 자체의 품질을 평가하고 개선할 방향을 제시합니다. 논리적으로 결함이 있거나 중의적인 질문들을 찾아내어 향후 더 나은 데이터셋을 구축하는 데 기여할 수 있습니다.

이 5단계를 계속 반복하면서 프롬프트는 점점 더 정교해지고, AI 모델의 추론 능력은 눈에 띄게 향상됩니다.

결과는 놀라웠다: 단순 프롬프트 vs 최적화 프롬프트

연구팀은 이 시스템을 통해 GPT-4의 성능을 테스트했고, 결과는 매우 인상적이었습니다.

‘Naive CoT’ (초기 프롬프트)와 비교했을 때, 여러 번의 반복과 인간 평가를 거쳐 최적화된 ‘New CoT’ 프롬프트는 모든 평가 지표에서 상당한 성능 향상을 보였습니다.

특히 AI의 암기력을 무력화시키기 위해 설계된 ‘적대적 데이터셋’에서 큰 성능 향상을 보였다는 점은 이 시스템이 AI의 단순 기억이 아닌 진짜 추론 능력을 강화했음을 시사합니다.

내 프롬프트에 ‘Mothman 시스템’ 적용하기 (실전 가이드)

이 연구는 우리에게 중요한 교훈을 줍니다. 최고의 프롬프트는 한 번에 완성되지 않으며, 체계적인 테스트와 반복적인 개선의 결과물이라는 것입니다. 여러분의 업무에 이 원리를 적용해 볼 수 있는 간단한 가이드를 소개합니다.

기준점 설정 (Baseline Test)

먼저 해결하고자 하는 문제에 대해 아무런 가이드 없이 기본적인 프롬프트를 작성하여 AI에게 질문해 보세요. 이것이 여러분의 ‘Naive Prompt’입니다.
실패 분석 (Analyze Failures)

AI가 내놓은 답변 중 만족스럽지 않은 결과들을 모으세요. 왜 그런 답변이 나왔을지 추론 과정을 역으로 추적해 보세요. 혹시 특정 단어에 집착했나요? 아니면 잘못된 전제를 깔고 시작했나요?
오답 소거법 도입 (Introduce Refutation)

프롬프트를 수정하여, AI에게 단순히 정답을 찾으라고 지시하는 대신, “주어진 선택지들을 하나씩 검토하고, 각 선택지가 왜 정답이거나 오답인지를 설명해줘”라고 요구해보세요.
까다로운 예시 추가 (Add Hard Examples)

실패 분석 단계에서 찾은 ‘까다로운’ 문제 유형과 그에 대한 올바른 추론 과정을 프롬프트의 예시(Few-shot)로 추가하세요. 이는 AI에게 더 나은 사고의 틀을 제공합니다.
측정 및 반복 (Measure and Iterate)

수정된 프롬프트의 성능을 다시 측정하고, 1~4단계를 만족스러운 결과가 나올 때까지 반복하세요.

결론: 프롬프트 엔지니어링은 ‘창조’가 아닌 ‘설계’의 영역으로

‘Mothman’ 시스템은 프롬프트 엔지니어링이 더 이상 감이나 우연에 의존하는 예술의 영역이 아님을 보여줍니다. 이는 인간의 심층적인 분석과 AI의 추론 과정을 결합한 체계적인 공학이자 과학입니다.

AI의 능력을 최대한으로 끌어내고 싶다면, 완벽한 프롬프트를 한 번에 ‘쓰려고’ 하기보다, 좋은 프롬프트를 ‘만들어가는’ 반복적이고 체계적인 프로세스를 구축하는 데 집중해야 합니다. 이 연구는 그 여정의 훌륭한 나침반이 되어줄 것입니다.

다음 포스팅 예고: 논리력과 창의력을 모두 갖춘 AI, 이제 마음껏 활용하고 싶지만 비용이 걱정되시나요? 다음 시간에는 성능 저하 없이 프롬프트를 20배 압축하여 GPT-4 API 비용을 90% 절감하는 혁신적인 기술, ‘LLMLingua’를 전격 분석합니다. → 다음 글 읽어보기

프롬프트 엔지니어링: AI의 창의적 추론 능력을 깨우는 5단계 최적화 가이드

AI를 함정에 빠뜨리는 ‘수평적 사고’ 문제란?

핵심 아이디어: 5단계 ‘반복적 프롬프트 최적화’ 시스템

결과는 놀라웠다: 단순 프롬프트 vs 최적화 프롬프트

내 프롬프트에 ‘Mothman 시스템’ 적용하기 (실전 가이드)

결론: 프롬프트 엔지니어링은 ‘창조’가 아닌 ‘설계’의 영역으로

GPT-4o도 쩔쩔맨다? 최신 AI 모델의 숨겨진 약점, 긴 글 생성 능력 벤치마크 LONGPROC 전격 분석

AI 환각의 치명적 오류, ‘수학(정형 기법)’으로 잡는 법

HMAW: ‘프롬프트 복권’ 시대의 종말, AI 회사 만들기

정답’ 대신 ‘과정’을 가르친다? 메타 프롬프팅 완벽 가이드

생각의 사슬(CoT)의 한계와 ChainLM: AI 추론 능력 향상을 위한 가이드

개발자 생산성 200% 올리는 프롬프트 엔지니어링 필살기 4가지

AI를 함정에 빠뜨리는 ‘수평적 사고’ 문제란?

핵심 아이디어: 5단계 ‘반복적 프롬프트 최적화’ 시스템

결과는 놀라웠다: 단순 프롬프트 vs 최적화 프롬프트

내 프롬프트에 ‘Mothman 시스템’ 적용하기 (실전 가이드)

결론: 프롬프트 엔지니어링은 ‘창조’가 아닌 ‘설계’의 영역으로

Similar Posts