챗GPT가 똑똑한 이유: LLM 사전 학습과 자기지도 학습 완벽 정리
혹시 챗GPT나 Claude 같은 최신 AI를 쓰면서 이런 생각 해보신 적 있나요?
“도대체 뭘 먹고 자랐길래 이렇게 말을 청산유수처럼 잘하지?”
오늘은 그 비밀인 ‘사전 학습(Pre-training)’에 대해 아주 쉽게 파헤쳐 보겠습니다. 수식은 빼고, 핵심 원리만 담았습니다.
선생님 없는 교실: 스스로 공부하는 AI
우리가 영어를 배울 때를 떠올려 볼까요? 단어장을 외우고 시험을 봅니다. 옆에서 선생님이 “이건 틀렸어, 정답은 A야”라고 알려주죠. 이걸 AI 용어로는 ‘지도 학습(Supervised Learning)’이라고 합니다.
하지만 챗GPT 같은 거대 언어 모델(LLM)은 이렇게 배우지 않았습니다. 세상의 모든 인터넷 문서를 다 읽어야 하는데, 그걸 일일이 채점해 줄 선생님은 없으니까요. 그래서 AI는 ‘자기지도 학습(Self-supervised Learning)’이라는 독한 방식을 택합니다.
원리는 간단합니다. “데이터 그 자체를 문제지로 만드는 것”입니다.
원본 문장: “아침에 먹는 사과는 금이다.”
AI가 스스로 만든 문제: “아침에 먹는 [ ? ]는 금이다.”
스스로 찾은 정답: “사과”
이 과정을 수억, 수조 번 반복하면서 AI는 ‘아침’, ‘먹다’, ‘사과’ 사이의 확률적 관계를 깨닫게 됩니다. 이것이 바로 LLM이 세상을 이해하는 기초 체력, Pre-training(사전 학습)입니다.
탐정(BERT)과 작가(GPT): 결정적 차이
흥미로운 점은, 이 학습 방식에도 두 가지 큰 파벌이 있다는 겁니다.
① BERT 파: 빈칸을 맞추는 명탐정 (Encoder)
- 방식 (Masked LM): 문장 중간에 구멍([MASK])을 뚫고 앞뒤 문맥을 다 살펴서 정답을 맞춥니다.
- 특기: “이 문장의 분위기가 긍정적인가?”, “이 두 문장이 이어지는 내용인가?” 처럼 이해(Understanding)와 분석에 강합니다.
- 비유: 사건 현장의 흩어진 단서들을 조합해 범인을 찾는 탐정.
② GPT 파: 다음 말을 잇는 스토리텔러 (Decoder)
- 방식 (Causal LM): 오직 앞에 나온 말들만 보고 바로 다음에 올 단어를 예측합니다. 미래(뒤의 단어)를 미리 컨닝할 수 없죠.
- 특기: 시를 쓰거나 코드를 짜는 등 새로운 텍스트를 생성(Generation)하는 데 압도적입니다.
- 비유: 청중의 반응을 보며 이야기를 끊임없이 만들어내는 즉흥 이야기꾼.
| 구분 | BERT (Encoder) | GPT (Decoder) |
|---|---|---|
| 학습 목표 | 빈칸 채우기 (Fill-in-the-blank) | 다음 단어 예측 (Next token prediction) |
| 참조 방향 | 양방향 (Bidirectional) | 단방향 (Unidirectional) |
| 주요 강점 | 분류, 감성 분석, 추출 | 작문, 대화, 코드 생성 |
데이터가 만드는 기적
단순히 “다음 단어 맞추기” 게임만 하는데 어떻게 지능이 생길까요?
- 처음엔 문법(Grammar)을 배웁니다. “나는 학교에…” 뒤에 “간다”가 오는 걸 알게 되죠.
- 데이터가 더 많아지면 지식(Knowledge)을 배웁니다. “미국의 수도는…” 뒤에 “워싱턴 D.C.”를 내뱉습니다.
- 그리고 마침내 추론(Reasoning) 능력이 발현됩니다. 복잡한 문제를 단계별로 풀어나가는 능력이 생기는 것이죠.
👨💻 현업 개발자의 Insight: 그래서 뭘 써야 할까?
이론은 완벽한데, 막상 프로젝트에 적용하려면 고민이 되실 겁니다. 실무에서는 ‘목적’이 전부입니다.
검색 엔진이나 감성 분석기를 만든다면? 문맥을 깊게 파악하는 BERT 계열(Encoder-only)이 여전히 강력합니다. 무조건 최신 생성형 AI를 쓰는 게 답은 아니에요. 리소스 효율 면에서 BERT가 훨씬 경제적일 수 있습니다.
챗봇, 요약, 자동 글쓰기 도구라면? 당연히 GPT 계열(Decoder-only)입니다.
🎁 30초 요약 (바쁜 분들을 위해)
- LLM은 선생님 없이 스스로 빈칸을 채우며 학습하는 ‘자기지도 학습’으로 만들어집니다.
- BERT는 앞뒤 문맥을 다 보고 이해하는 ‘탐정’이고, GPT는 앞만 보고 뒷말을 잇는 ‘작가’입니다.
- 분석엔 인코더(BERT), 창작엔 디코더(GPT)를 골라 쓰세요!
