RLHF란? 챗GPT가 ‘눈치’ 챙기고 똑똑해진 결정적 이유
챗GPT는 어떻게 ‘예의’를 배웠을까요?
거대 언어 모델(LLM)이 등장했을 때, 우리는 그 방대한 지식에 놀랐습니다. 하지만 초기의 LLM은 마치 “책은 많이 읽었지만 눈치는 없는 천재”와 같았습니다. 단순히 다음 단어를 예측하는 것만으로는 사용자가 원하는 ‘도움이 되고, 무해하며, 정직한(Helpful, Harmless, Honest)’ 답변을 내놓기 어려웠기 때문이죠.
LLM을 단순한 ‘텍스트 생성기’에서 ‘지능형 비서’로 진화시킨 핵심 기술, 정렬(Alignment) 과정인 SFT와 RLHF에 대해 알아보겠습니다.
왜 ‘정렬(Alignment)’이 필요한가요?
LLM은 기본적으로 인터넷의 수많은 텍스트를 읽으며 ‘다음에 올 단어’를 맞히도록 훈련받습니다(Pre-training). 하지만 인터넷에는 유용한 정보뿐만 아니라 편향되거나 부정확한 정보도 섞여 있습니다.
만약 우리가 “독약을 만드는 법을 알려줘”라고 물었을 때, 정렬되지 않은 모델은 학습한 대로 위험한 화학 공식을 줄줄 읊을 수도 있습니다. AI가 인간의 가치관과 의도에 맞게 행동하도록 조율하는 과정, 이것이 바로 AI 정렬(AI Alignment)입니다.
족집게 과외 받기 – 지시어 미세 조정 (SFT)
가장 먼저 하는 일은 AI에게 ‘모범 답안’을 보여주는 것입니다. 이를 지시어 미세 조정(Supervised Fine-tuning, SFT)이라고 합니다.
어떻게 하나요?
사람이 직접 질문(Instruction)과 이상적인 답변(Output)을 작성하여 데이터셋을 만듭니다.
입력: “이 기사를 3문장으로 요약해줘.”
모범 답안: “태양광 에너지가 급성장하고 있습니다…”
효과
AI는 이 데이터를 통해 “아, 사용자가 ‘요약해줘’라고 하면 이렇게 답해야 하는구나”라는 패턴을 배웁니다.
한계
모든 질문에 대해 사람이 일일이 모범 답안을 써주는 것은 불가능합니다. 비용도 많이 들고, 사람마다 ‘좋은 답변’의 기준이 다를 수도 있죠.
당근과 채찍 – 인간 피드백 기반 강화학습 (RLHF)
SFT만으로는 부족할 때, RLHF(Reinforcement Learning from Human Feedback)가 등장합니다. 이 과정은 마치 선생님이 학생의 답안지에 점수를 매겨서 가르치는 것과 비슷합니다.
RLHF는 크게 두 단계로 나뉩니다.
① 리워드 모델(Reward Model) 만들기: “채점 기준표 학습”
AI가 하나의 질문에 대해 여러 가지 답변을 내놓으면, 사람이 이 답변들의 순위를 매깁니다.
- 답변 A: (친절하고 정확함) → 1등
- 답변 B: (정보는 맞지만 무례함) → 2등
- 답변 C: (틀린 정보) → 3등
이 데이터를 바탕으로, AI가 낸 답이 얼마나 좋은지 점수(Reward)를 예측하는 별도의 AI 모델(리워드 모델)을 만듭니다.
② 강화학습(PPO)으로 훈련하기: “점수 잘 받는 법 배우기”
이제 리워드 모델이 ‘선생님’ 역할을 합니다. 본래의 LLM(Agent)이 답변을 생성하면, 리워드 모델이 점수를 줍니다. LLM은 이 점수를 최대화하는 방향으로(즉, 칭찬받는 방향으로) 자신의 파라미터를 미세하게 조정합니다.
주로 PPO(Proximal Policy Optimization)라는 알고리즘을 사용해 학습의 안정성을 유지합니다.
인간을 닮아가는 AI
정리하자면, LLM은 다음과 같은 3단계 진화를 거칩니다.
- Pre-training: 책을 많이 읽어 지식을 쌓음 (하지만 눈치 없음)
- SFT (Instruction Tuning): 모범 답안을 보며 기본기를 익힘 (과외 수업)
- RLHF: 피드백을 통해 더 좋은 답변을 스스로 깨우침 (실전 훈련)
최근에는 인간의 피드백조차 AI가 대신하는 RLAIF(Reinforcement Learning from AI Feedback) 연구도 활발히 진행되고 있습니다.
결국 AI 기술의 핵심은 얼마나 많은 데이터를 학습하느냐가 아니라, 얼마나 인간의 의도와 가치에 깊이 공감하고 정렬(Align)되느냐에 달려 있습니다.
