AI 환각은 버그가 아니다? 창의성과의 놀라운 상관관계 분석
Shakespearean Sparks: AI 환각과 창의성의 ‘최적 레이어’ 발견
“수박씨를 삼키면 뱃속에서 수박이 자란다.”
어릴 적 으레 듣던 귀여운 거짓말입니다. 그런데 최첨단 AI가 진지하게 이런 대답을 내놓는다면 어떨까요?
엔지니어 입장에서 이는 명백한 ‘버그’이자, 환각(Hallucination)이라는 제거 대상일 뿐입니다. 우리는 이 환각을 잡기 위해 RAG(검색 증강 생성)를 붙이고 프롬프트를 깎으며 밤을 지새우곤 합니다.
하지만 최근 발표된 논문은 이 현상을 조금 다른 시각으로 바라봅니다. 우리가 필사적으로 없애려는 그 환각이, 어쩌면 AI의 창의성(Creativity)이 발현되는 순간일지도 모른다는 것이죠.
오늘은 2025년 3월 공개된 이 연구를 통해, 환각과 창의성의 상관관계, 그리고 이를 이용해 LLM 운영 비용까지 절감하는 ‘최적의 레이어(Layer)’ 전략을 분석해 봅니다.
1. 환각과 창의성, 동전의 양면
우리는 보통 LLM의 성능을 ‘얼마나 사실(Fact)에 가까운가’로 평가합니다. 하지만 소설을 쓰거나 아이데이션을 할 때는 ‘얼마나 엉뚱하고 기발한가’가 핵심 경쟁력이 됩니다.
연구진이 LLaMA 모델을 대상으로 Temperature(무작위성) 파라미터를 조절하며 실험한 결과는 흥미롭습니다.
- 현상: 온도를 0.6에서 1.0으로 높이자 창의성 점수가 상승했습니다.
- 대가: 동시에 환각 비율도 정확히 비례해서 증가했습니다.
마치 술과 같습니다. 적당한 취기는 예술적 영감을 주지만, 과해지면 현실 감각을 잃게 되죠. 더 주목할 점은 ‘모델의 크기’에 따른 차이입니다.
- 작은 모델 (1B): 실수는 적지만, 답변이 보수적이고 뻔합니다.
- 큰 모델 (13B): 훨씬 창의적이고 복합적인 답변을 내놓지만, 그만큼 ‘그럴싸한 거짓말’도 능숙하게 해냅니다.
즉, “똑똑한 모델일수록 더 창의적이지만, 더 능숙하게 거짓말을 한다”는 역설이 데이터로 증명된 셈입니다.
2. 레이어(Layer) 해부: 끝까지 계산하는 것이 정답일까?
보통 우리는 LLM이 모든 연산을 마친 ‘마지막 레이어(Final Layer)’의 결과물만 확인합니다. 하지만 연구진은 중간 과정, 즉 모델 내부의 레이어별 생각을 들여다보았습니다.
그 결과, 답변 생성 과정은 다음과 같은 흐름을 보였습니다.
- 초기 레이어: 문맥 파악 단계. 답변이 불안정하고 자신감이 없음.
- 중간 레이어: 다양한 가능성을 탐색하며 창의성이 폭발하는 구간.
- 후반 레이어: 팩트를 검증하고 안전한 답변으로 수렴하는 구간.
여기서 핵심적인 발견이 나옵니다. 마지막 레이어는 지나치게 ‘안전함’을 추구하다 보니, 오히려 창의성을 잃어버리거나 과도한 확신(Overconfidence)으로 잘못된 정보를 고착화하는 경향이 있다는 것입니다.
3. 황금 레이어를 찾아라: HCB 프레임워크
그렇다면 창의성을 살리면서 환각은 통제 가능한 ‘최적의 지점’은 어디일까요? 연구진은 이를 찾기 위해 HCB(Hallucination-Creativity Balance) 점수를 고안했고, 모델별로 다음과 같은 ‘조기 종료(Early Exit)’ 지점을 찾아냈습니다.
| 모델명 | 전체 레이어 | 최적 레이어 | 특징 |
|---|---|---|---|
| LLaMA-3.2-1B | 16 | Layer 4 | 초기 단계에서 이미 최적 성능 달성 |
| LLaMA-2-7B | 32 | Layer 8 | 깊지 않은 곳에서 균형점 발견 (안정적) |
| LLaMA-3-8B | 32 | Layer 6 | 효율성을 고려했을 때 최선의 선택 |
특히 LLaMA-2-7B 모델의 경우, 32번까지 갈 필요 없이 딱 ‘8번 레이어’에서 멈췄을 때 가장 창의적이면서도 환각이 적은 결과를 보였습니다.
이것이 시사하는 바는 큽니다. 굳이 GPU를 혹사시키며 끝까지 연산할 필요 없이, 앞단에서 결과를 가로채는 것만으로도 품질은 높이고 비용(연산량)은 획기적으로 줄일 수 있다는 뜻입니다.
4. 마치며: 오류를 가능성으로 바꾸는 기술
“수박씨를 먹으면 수박이 된다”는 말은 팩트 체크 봇에게는 ‘오류’지만, 동화 작가에게는 훌륭한 ‘소재’입니다. 이번 논문은 우리에게 두 가지 실무적 인사이트를 줍니다.
- 첫째, 창의적인 작업이 필요한 서비스라면 조기 종료(Early Exit) 전략을 통해 추론 비용을 아끼면서도 더 나은 결과물을 얻을 수 있다는 점.
- 둘째, 환각을 무조건 박멸해야 할 버그가 아니라, 용도에 따라 적절히 조절해야 할 파라미터로 봐야 한다는 점입니다.
여러분의 AI 서비스는 지금 어떤 목표를 가지고 있나요? 정확성이 생명인 금융 봇이 아니라면, 가끔은 AI가 8번 레이어 쯤에서 멈추도록 허락해 보는 건 어떨까요? 어쩌면 그곳에 우리가 찾던 ‘셰익스피어의 불꽃’이 숨어 있을지 모릅니다.
[요약]
- Trade-off: LLM의 창의성과 환각은 비례한다. 창의적일수록 거짓말도 잘한다.
- Insight: 모델의 마지막 레이어가 항상 최선은 아니다. 중간 레이어가 더 창의적일 수 있다.
- Action: LLaMA-2-7B 기준, Layer 8에서 추론을 멈추는 것이 창의성과 비용 효율성 면에서 최적의 선택이다.
