제어 가능한 TTS: 2025년 AI 음성 합성 3대 핵심 트렌드
몇 년 전만 해도 AI 비서의 목소리는 감정 없이 또박또박 끊어 읽는 ‘로봇 목소리’의 대명사였습니다. 하지만 오늘날 AI 음성은 농담을 건네고, 상황에 맞는 감정을 표현하며, 따뜻한 톤으로 동화책을 읽어줍니다.
이는 단순히 텍스트를 소리로 바꾸는 것을 넘어, 말의 감정, 억양, 스타일, 음색까지 제어하는 ‘제어 가능한 텍스트-음성 변환(Controllable TTS)’ 기술 덕분입니다. 이 기술은 영화 더빙, AI 비서, 오디오북 등 우리 삶의 많은 영역을 바꾸고 있습니다.
최근 발표된 2025년 기술 설문 논문(“대규모 언어 모델 시대의 제어 가능한 음성 합성”)은 이러한 정교한 제어가 어떻게 가능해졌는지 명확히 보여줍니다.
복잡한 학술 용어 대신, 이 논문을 바탕으로 AI 음성 합성을 주도하는 3가지 핵심 트렌드와 미래 과제를 알기 쉽게 분석해 보겠습니다.
트렌드 1. LLM: ‘맥락’으로 음성을 이해하다
AI 분야에서 대규모 언어 모델(LLM)의 영향력은 절대적이며, 음성 합성 분야도 예외는 아닙니다.
과거의 방식 (문제점)
AI에게 ‘슬픈 목소리’를 가르치려면, ‘슬픔’이라는 태그(#Sad)가 붙은 음성 파일 수천 개가 필요했습니다. 즉, 미리 정의된 스타일 외에는 표현이 불가능했습니다.
LLM의 방식 (해결책)
LLM은 이 문제를 ‘인-컨텍스트 러닝(In-Context Learning)’이라는 강력한 무기로 해결했습니다.
대표적인 모델이 VALL-E입니다. VALL-E는 음성 합성을 ‘언어 모델링’ 문제로 접근한 선구자입니다.
작동 방식은 이렇습니다:
- VALL-E는 단 3초의 참조 음성만 듣고도, 그 사람의 목소리 톤과 음색을 즉시 복제(Zero-shot)합니다.
- 이는 오디오를 ‘오디오 토큰'(EnCodec 기술 활용)이라는 개별 단위로 분해한 뒤, LLM이 텍스트(의미) 토큰과 오디오(음색) 토큰을 기반으로 다음에 올 소리 토큰을 예측하며 문장을 완성하기에 가능합니다.
이 접근 방식(VALL-E X, HALL-E 등 후속 모델)은 LLM 기반 TTS의 가능성을 폭발적으로 확장시키고 있습니다.
트렌드 2. 디퓨전 & 플로우: ‘품질’과 ‘속도’를 잡다
LLM이 ‘지능적인 제어(무엇을 말할지)’를 맡는 두뇌라면, 실제 ‘고품질의 소리’를 빠르고 섬세하게 만들어내는 것은 디퓨전(Diffusion)과 플로우(Flow) 모델의 몫입니다.
1. 디퓨전 (Diffusion) 모델: 품질 중심
이미지 생성 AI(DALL-E 등)에 익숙하다면 디퓨전의 원리를 이해하기 쉽습니다.
작동 방식: 깨끗한 음성 데이터에 점진적으로 노이즈를 추가합니다.
학습: AI는 이 노이즈가 낀 데이터에서 거꾸로 원본 소리를 복원하는 과정을 학습합니다.
결과: 이 과정을 통해 AI는 완전한 노이즈 상태에서 텍스트(조건)에 맞는 고품질 음성을 ‘생성’해냅니다. NaturalSpeech 2 같은 모델이 이 기술로 사람과 구별 불가능한 수준의 음성을 만들어냈습니다.
2. 플로우 기반 (Flow-based) 모델: 속도 중심
플로우 기반 모델은 더 효율적이고 빠른 합성을 목표로 합니다.
비유: 이 방식은 복잡한 음성 데이터를 ‘단순한 분포(데이터 고속도로)’로 매핑하는 ‘가역적’ 흐름을 학습합니다.
작동 방식: 생성 시에는 이 고속도로(단순 분포)에서 데이터를 뽑아 역방향으로 흐름을 태우기만 하면, 빠르고 안정적으로 고품질 음성을 생성할 수 있습니다.
결과: FlashSpeech나 P-Flow 같은 모델은 이 방식으로 단 한두 단계(One-step) 만에 고품질 합성을 이뤄내는 놀라운 효율성을 보여주었습니다.
트렌드 3. ‘제어 방식’의 4단계 진화
기술뿐만 아니라, 우리가 AI에게 “어떻게 말해줘”라고 명령하는 ‘제어 전략’ 자체도 4단계로 진화했습니다.
1세대: 스타일 태깅 (단순 라벨)
가장 고전적인 방식입니다. ‘슬픔’, ‘기쁨’ 같은 미리 정의된 감정 태그(#Happy, #Sad)를 입력합니다.
- 장점: 구현이 단순합니다.
- 단점: 미리 정의된 몇 가지 스타일 외에는 표현이 불가능해 다양성이 크게 떨어집니다.
2세대: 참조 음성 프롬프트 (샘플 복제)
1세대의 한계를 극복하기 위해, 짧은 참조 음성을 프롬프트로 사용합니다. (“이 목소리처럼 말해줘.”) 위에서 설명한 VALL-E가 이 방식을 사용합니다.
- 장점: 제로샷(Zero-shot) 음성 복제가 가능해 개인화 수준이 높습니다.
- 단점: 원하는 스타일을 가진 ‘참조 음성’을 매번 찾아야 하는 번거로움이 있습니다.
3세대: 자연어 묘사 (설명)
2세대의 번거로움을 해결하기 위해, 원하는 스타일을 직접 ‘자연어’로 묘사합니다. (“친구가 기쁜 소식을 전하는 것처럼 활기차게 말해줘.”) PromptTTS 등이 이 접근법을 사용했습니다.
- 장점: 매우 직관적이고 사용자 친화적입니다.
- 단점: 텍스트로 묘사하기 힘든 미묘한 음색(‘비꼬는 듯한’)은 제어하기 어렵습니다.
4세대: 명령어 기반 합성 (지시)
가장 최신의 트렌드입니다. LLM의 강력한 ‘명령어 이해 능력’을 활용하여 텍스트 내용과 스타일을 하나의 ‘명령어’로 통합합니다.
예시: “첫 문장은 평범하게 읽다가, ‘하지만’ 부분부터는 비밀을 말하듯 속삭여줘.”
강점: CosyVoice 같은 모델은 단순 감정을 넘어, 웃음소리, 기침 소리 같은 비언어적 표현까지 제어하는 수준에 도달했습니다.
여전히 남은 과제들: 왜 아직 완벽하지 않을까?
이렇게 놀라운 발전에도 불구하고 AI 음성이 완벽해지기까지는 몇 가지 큰 산이 남아있습니다.
정교한 속성 제어의 어려움
‘기쁨’과 ‘흥분’은 어떻게 다를까요? ‘풍자적인 톤’은 어떻게 구현할까요? 이처럼 미묘하고 복합적인 감정을 분리하고 제어하는 것은 여전히 가장 큰 도전입니다.
특성 분리의 문제 (Feature Disentanglement)
AI에게 “목소리 톤을 높여줘”라고 명령했을 때, AI가 목소리 톤만 높이는 게 아니라 엉뚱하게 감정(화난 목소리)이나 말의 빠르기까지 바꿔버릴 수 있습니다. 각 속성을 독립적으로 제어하는 것이 매우 어렵습니다.
고품질 데이터셋의 부족
대부분의 데이터셋은 ‘나이’, ‘성별’, ‘기본 감정’ 같은 거친 라벨링만 되어 있습니다. “비꼬는 말투”, “수줍은 고백” 같은 정교한 스타일이 포함된 대규모 데이터셋은 여전히 부족합니다.
미래 전망: AI 음성은 어디로 향하는가?
논문은 앞으로 우리가 주목해야 할 4가지 유망한 연구 방향을 제시합니다.
1. 명령어 기반 편집
“이 문장에서 3번째 단어를 더 강조해줘.” 이미 생성된 음성을 자연어 명령으로 실시간 편집하는 기술입니다. (VoiceCraft)
2. 멀티모달 음성 합성
텍스트뿐만 아니라 이미지나 비디오를 보고 상황에 맞는 음성을 생성합니다. (예: 웃는 얼굴 이미지를 보고 웃는 목소리로 말하기)
3. 감정 일관성이 있는 긴 연설
1시간짜리 오디오북을 생성할 때, 처음부터 끝까지 동일한 인물의 목소리와 감정 톤을 유지하는 기술입니다.
4. 대화형 AI 음성
현재 AI 비서는 내 말이 끝나야 대답합니다. 미래에는 상대방의 말을 들으면서 맥락에 맞게 끼어들거나, 감정적으로 풍부한 대화가 가능한 AI가 등장할 것입니다.
결론: 단순한 ‘흉내’에서 진정한 ‘연기’로
제어 가능한 TTS 기술은 ‘사람 목소리를 흉내 내는’ 단계를 지나, ‘감정을 연기하는’ 단계로 진입하고 있습니다.
LLM의 지능, 디퓨전의 품질, 그리고 플로우의 속도가 결합하면서, 우리는 AI에게 “어떻게 말해야 하는지”를 지시하는 ‘감독’이 되어가고 있습니다. 로봇 목소리의 시대는 공식적으로 끝났습니다. 이제 AI가 우리의 감정과 의도를 얼마나 더 깊이 있게 표현해낼지 그 진화를 지켜볼 일만 남았습니다.
