개발자가 책상에 앉아 방향성 자극 프롬프팅(DSP) 기술을 활용하여 복잡한 LLM의 성능 최적화 작업을 하는 모습
|

방향성 자극 프롬프팅(DSP): LLM 옆에 AI 코치를 붙이는 기술

방향성 자극 프롬프팅(DSP): LLM 옆에 AI 코치를 붙이는 기술

API로만 쓸 수 있는 GPT-4 같은 ‘블랙박스’ 언어 모델(LLM). 특정 업무에 맞춰 성능을 끌어올리고 싶은데, 내부를 수정할 방법이 없어 막막하셨나요? 여기 아주 영리한 해법이 있습니다. LLM 옆에 작은 ‘코치’ 모델을 붙여, 원하는 방향으로 결과물을 만들도록 유도하는 ‘방향성 자극 프롬프팅(Directional Stimulus Prompting, DSP)’입니다.

이 기술은 단순히 예시 몇 개를 던져주는 ‘퓨샷 프롬프팅’과는 차원이 다릅니다. 각 질문의 특성을 파악해, LLM에게 가장 효과적인 ‘핵심 힌트’를 실시간으로 생성해 속삭여주는 방식이죠. 마치 학생에게 문제 전체를 풀어주는 대신, 가장 중요한 키워드와 접근법을 짚어주는 유능한 과외 선생님처럼 말입니다.

이 글에서는 ‘Directional Stimulus Prompting’ 논문을 바탕으로, 이 똑똑한 ‘AI 코치’가 무엇인지, 어떻게 작동하며, 왜 우리가 주목해야 하는지 쉽고 명쾌하게 설명해 드리겠습니다.

그래서, Directional Stimulus Prompting (DSP)가 정확히 무엇인가요?

DSP의 핵심은 간단합니다. 거대한 LLM을 직접 건드리는 대신, 별도의 작은 ‘정책 모델(Policy Model)’을 사용해 각 질문에 최적화된 ‘힌트(방향성 자극)’를 만들어 제공하는 프레임워크입니다.

이해를 돕기 위해, 긴 기사를 요약하는 상황을 예로 들어보겠습니다.

👎 기존 방식 (Standard Prompting)

“이 기사를 2~3문장으로 요약해 줘.”

👍 DSP 방식 (Directional Stimulus Prompting)

“이 기사를 아래 힌트를 참고해서 2~3문장으로 요약해 줘.
힌트: Bob Barker, TV, April 1, ‘The Price is Right’, 2007, 91″

결과는 놀랍습니다. DSP를 사용했을 때, LLM은 힌트로 제공된 핵심 키워드를 모두 포함하여 훨씬 정확하고 풍부한 요약문을 생성했습니다. 중요한 점은 이 힌트가 외부 검색으로 가져온 새로운 정보가 아니라, 오직 원본 기사 내에서 가장 중요한 내용을 뽑아 만든 최적의 길잡이라는 것입니다.

DSP는 어떻게 똑똑한 ‘힌트’를 만들어낼까요?

DSP의 진짜 묘미는 바로 이 ‘힌트’를 만들어내는 작은 정책 모델을 훈련시키는 과정에 있습니다. 과정은 크게 두 단계로 나뉩니다.

1단계: 모범 답안으로 기초 학습하기 (지도 미세조정, SFT)

먼저 정책 모델에게 ‘정답’ 데이터를 보여주며 기초를 다지게 합니다. 예를 들어, 좋은 기사 요약문에는 어떤 키워드들이 포함되는지를 학습시키는 거죠. 원본 기사와 모범 요약문을 주고, “이 모범 요약문에 들어있는 이런 키워드들이 좋은 힌트란다”라고 가르치는 단계입니다.

이것만으로도 정책 모델은 제법 괜찮은 힌트를 만들기 시작합니다. 하지만 이 힌트가 LLM에게 정말 ‘최적’인지는 아직 알 수 없습니다.

2단계: 실전 코칭으로 실력 완성하기 (강화학습, RL)

여기서부터 DSP의 진가가 드러납니다. 정책 모델이 만든 힌트를 가지고 LLM이 실제로 결과물을 만들어보게 합니다. 그리고 그 결과물이 얼마나 좋은지에 따라 정책 모델에게 ‘보상(점수)’을 줍니다.

  • (정책 모델) LLM에게 줄 힌트를 생성합니다.
  • (LLM) 원본 데이터와 힌트를 받아 결과물을 생성합니다.
  • (평가) 결과물이 얼마나 훌륭한지 점수를 매겨 정책 모델에게 전달합니다.
  • (정책 모델) 더 높은 점수를 받은 힌트를 만드는 방향으로 스스로를 업데이트합니다.

이 과정을 반복하며 정책 모델은 단순히 정답을 흉내 내는 것을 넘어, LLM의 잠재력을 최대로 끌어내는 ‘필살기 힌트’를 스스로 터득하게 됩니다.

이게 정말 효과가 있나요? 숫자로 보는 DSP 성능

이 프레임워크는 이론에만 그치지 않고, 다양한 실험에서 놀라운 성능 향상을 입증했습니다.

요약 과제: ChatGPT를 대상으로 한 실험에서, 단 4,000개의 데이터로 훈련한 DSP를 적용하자 요약 품질 점수(ROUGE, BLEU)가 4~13% 향상되었습니다.

대화 응답 생성: 더 놀라운 결과도 있습니다. 단 80개의 대화 데이터만으로 정책 모델을 훈련시켰을 때, ChatGPT의 응답 품질이 무려 41.4%나 개선되었습니다. 이는 훨씬 많은 데이터로 훈련된 최신 모델과 맞먹는 수준입니다.

논리적 추론 (CoT): 사람이 직접 만든 프롬프트보다, DSP가 각 문제에 맞춰 ‘맞춤형’으로 생성한 추론 과정 힌트가 InstructGPT의 정답률을 더 높였습니다.

이 결과들은 DSP가 아주 적은 데이터와 비용으로도 특정 작업에 대한 LLM의 성능을 극적으로 최적화할 수 있다는 사실을 명확히 보여줍니다.

결론: LLM을 내 뜻대로 움직이는 새로운 열쇠

Directional Stimulus Prompting(DSP)은 LLM을 위한 ‘맞춤형 내비게이션’과 같습니다. 모든 운전자(입력)에게 똑같은 길을 알려주는 것이 아니라, 각자의 목적지에 가장 빠르고 정확하게 도착할 수 있는 최적의 경로(힌트)를 실시간으로 제공하죠.

이제 거대 모델을 직접 만지지 않고도, 더 작고 스마트한 정책 모델을 활용해 LLM을 당신의 의도대로 움직여 보세요. 적은 비용으로 ‘블랙박스’ LLM의 한계를 넘어서고 싶은 개발자와 연구자에게 DSP는 가장 현실적이고 강력한 해법이 될 것입니다.

Similar Posts