AI 성찰 능력 탑재! 스스로 똑똑해지는 AI, RISE 분석
혹시 AI에게 같은 말을 반복하며 답답했던 적 없으신가요? AI에게 무언가 시켰는데, 결과가 영 마음에 들지 않습니다. 그래서 어디가 틀렸는지 조목조목 짚어주며 다시 해보라고 합니다. 하지만 AI는 방금 받은 피드백을 전혀 이해하지 못한 듯, 거의 똑같은 실수를 반복합니다. 마치 벽과 대화하는 기분이죠.
이는 현재 가장 뛰어난 대규모 언어 모델(LLM)도 겪는 명백한 한계입니다. 이들은 자신이 방금 내놓은 답변이 왜 틀렸는지 스스로 돌아보고, 그 경험을 바탕으로 다음 시도를 개선하는 ‘성찰’ 능력이 부족합니다.
그런데 만약 AI가 인간처럼 자신의 실수를 곱씹어보고, 실패로부터 배워 다음번엔 더 나은 답을 내놓을 수 있다면 어떨까요? 최근 발표된 ‘RISE(Recursive Introspection)’라는 기술이 바로 이 질문에 대한 흥미로운 해답을 제시합니다. RISE는 AI에게 정답을 주입하는 대신, ‘스스로 똑똑해지는 방법’ 자체를 가르치는 획기적인 접근법입니다.
왜 AI는 같은 실수를 반복할까요?
기존의 LLM은 단 한 번의 시도로 최상의 답변을 내놓도록 훈련받았습니다. 마치 시험을 앞두고 정답만 달달 외운 학생과 같습니다. 예상했던 문제가 나오면 곧잘 풀지만, 조금만 유형이 바뀌거나 처음 보는 문제에 부딪히면 속수무책으로 무너집니다.
특히 여러 단계를 거쳐야 풀리는 복잡한 추론 문제에서 이 한계는 더욱 두드러집니다. 모델에게 “방금 그 계산은 틀렸어, 다시 생각해봐”라고 말해주어도, 대부분은 어디서부터 잘못되었는지 근본적인 원인을 찾지 못합니다. 정답에 대한 ‘지식’은 있을지 몰라도, 자신의 풀이 과정의 오류를 분석하고 수정하는 ‘전략’은 없기 때문입니다.
해법: AI에게 ‘스스로 나아지는 법’을 가르치다, RISE
RISE는 이러한 한계를 극복하기 위해 문제 해결 과정을 ‘단거리 달리기’가 아닌, 여러 단계를 거쳐 목표에 도달하는 ‘여정’으로 재정의했습니다. 길을 가다 막다른 길을 만나면, 왔던 길을 되짚어보고 다른 경로를 탐색하는 것처럼 말이죠.
RISE의 핵심 훈련 방식은 두 단계로 나뉩니다. 비유하자면, ‘스스로 문제집을 풀고 채점하는 과정’과 같습니다.
데이터 수집 (문제 풀기 및 해설지 확보)
먼저 AI(학습자)에게 특정 문제를 여러 번 풀게 합니다.
그런 다음, 각 시도보다 더 나은 ‘모범 답안’을 마련합니다. 이 모범 답안은 두 가지 방식으로 얻습니다.
- 자문자답 (Self-distillation): AI 스스로 여러 개의 후보 답안을 내놓게 한 뒤, 그중 가장 정답에 가까운 것을 모범 답안으로 삼습니다. 스스로 더 나은 풀이법을 찾아내도록 유도하는 것이죠.
- 선생님 찬스 (Distillation): GPT-4처럼 더 뛰어난 ‘선생님’ AI에게 더 나은 답을 물어보고, 그것을 학습 데이터로 활용합니다.
정책 개선 (오답노트 작성 및 전략 내재화)
이렇게 모은 ‘문제 풀이 과정과 모범 답안’ 데이터를 가지고 AI를 다시 훈련시킵니다.
이때 중요한 점은, 성공적인 개선을 이끌어낸 풀이 과정에 더 높은 ‘가산점’을 주는 것입니다. 반면, 별다른 개선을 보이지 못한 시도에는 낮은 점수를 줍니다.
이 과정을 반복하면, AI는 점차 어떤 피드백을 받았을 때 어떻게 수정해야 더 나은 결과로 이어지는지에 대한 ‘자기 개선 전략’을 내재화하게 됩니다.
결과는 놀라웠습니다: 숫자로 증명된 효과
RISE의 효과는 분명했습니다. 수학 문제 데이터셋(GSM8K)에서 Llama2-7B 모델에게 5번의 성찰 기회를 주자, 첫 시도보다 정답률이 무려 17.7%나 향상되었습니다. 이는 단순히 5개의 답을 한 번에 생성해 그중 가장 좋은 것을 고르는 방식보다 훨씬 뛰어난 결과입니다.
더 놀라운 점은, 외부 ‘선생님’의 도움 없이 오직 스스로의 데이터만으로 훈련시킨 Llama3-8B와 Mistral-7B 모델 역시 각각 8.2%, 6.6%의 의미 있는 성능 향상을 보였다는 것입니다. 심지어 RISE로 훈련된 Mistral-7B 모델은 수학 추론에 특화된 다른 최첨단 모델의 성능을 능가하기까지 했습니다.
이는 RISE가 단순히 계산량만 늘리는 것이 아니라, AI가 문제를 해결하는 ‘사고 과정’ 자체를 근본적으로 개선한다는 뜻입니다. 한 번의 시도로는 풀 수 없었던 복잡한 문제도, 여러 번의 성찰을 통해 해결의 실마리를 찾게 된 것입니다.
단순한 성능 향상, 그 이상의 의미
RISE가 중요한 이유는 AI가 수동적인 답변 생성기를 넘어, 자율적인 ‘지능형 에이전트’로 발전할 핵심 열쇠를 제공하기 때문입니다.
예를 들어, AI 에이전트에게 새로운 라이브러리를 사용해 코드를 짜라는 임무를 주었다고 상상해 봅시다.
- 기존 AI: 그럴듯해 보이는 코드를 한 번에 생성하고 끝입니다. 이 코드가 실제로 작동하는지는 알 수 없습니다.
- RISE 기반 AI: 일단 유망해 보이는 코드를 생성한 뒤, 직접 컴파일을 시도합니다. 오류가 발생하면, 그 피드백을 바탕으로 코드를 수정하고 다시 실행합니다. 이 과정을 반복하여 결국 완벽하게 작동하는 코드를 스스로 완성해냅니다.
이처럼 상호작용을 통해 실시간으로 문제를 해결하는 능력은 AI가 정적인 지식 창고에서 벗어나, 우리와 함께 일하는 진정한 파트너가 될 수 있음을 의미합니다.
결론: 스스로 성장하는 AI 시대의 서막
RISE는 “AI는 스스로를 교정할 수 없다”는 기존의 통념에 도전하며, AI에게 ‘성찰’이라는 고차원적인 능력을 가르칠 수 있음을 증명했습니다.
물론 아직 초기 단계이며, 더 많은 자원과 연구가 필요합니다. 하지만 중요한 패러다임의 전환이 시작된 것은 분명합니다. 이제 우리는 AI에게 정답을 알려주는 시대를 지나, ‘정답을 찾아가는 과정’을 가르치기 시작했습니다. 스스로 생각하고, 배우고, 발전하는 AI의 시대가 우리 곁에 한 걸음 더 다가왔습니다.