AI 성능 향상을 위한 'AI 질문법'을 정교하게 설계하며 랩탑 화면을 분석하는 전문가.
|

AI 질문법: GPT-4o 성능, 4천 단어 대신 96단어였던 이유

AI 질문법: GPT-4o 성능, 4천 단어 대신 96단어였던 이유

GPT-4o가 비디오를 제대로 못 본다고요? 혹시 ‘질문’이 잘못된 건 아닐까요?

우리는 매일 유튜브, 틱톡, 릴스 같은 플랫폼에서 엄청난 양의 비디오를 봅니다. 그런데 혹시 이런 생각해 보셨나요? “이 많은 영상 중에 부적절한 콘텐츠는 대체 누가, 어떻게 걸러내는 걸까?”

플랫폼들은 이 거대한 숙제를 풀기 위해 GPT-4o 같은 최신 거대 언어 모델(LLM)을 투입하기 시작했습니다. AI에게 ‘세계 지식’이 있으니, 당연히 잘할 거라 기대했죠. 하지만 틱톡(TikTok)의 연구진이 실제로 적용해 보니, 결과는 예상과 많이 달랐습니다.

최근 발표된 한 논문은 이 문제를 해결하는 과정을 아주 흥미롭게 보여줍니다. 결론부터 말씀드리면, 문제는 GPT-4o의 성능이 아니라, 우리가 AI에게 일을 시키는 ‘방식’이었습니다.

비법 1: “Less is More” – 4,000단어짜리 매뉴얼을 96단어로 줄여라

연구팀은 AI에게 ‘민감한’ 콘텐츠를 찾아내도록 시켰습니다. 그러면서 AI가 참고할 수 있도록 4,023단어에 달하는 아주 상세한 ‘정책 가이드라인’을 줬죠.

결과는 어땠을까요? 처참했습니다. AI가 ‘민감한’ 콘텐츠를 보고도 “아니다”라고 판단하는 경우(거짓 음성, False Negative)가 너무 많았습니다.

🧯 무엇이 문제였을까요?

이는 마치 신입사원에게 4,000페이지짜리 업무 매뉴얼을 던져주고 “자, 이제부터 완벽하게 일하세요”라고 말하는 것과 같습니다. 이 신입사원은 아마 모든 세부 규정을 지키려다 오히려 명백하게 중요한 일을 놓치거나, 사소한 예외 조항 하나 때문에 “이건 내 매뉴얼에 없던 거니까…”라며 보수적으로 판단할 겁니다.

AI도 마찬가지였습니다. 너무 길고 복잡한 규칙은 AI를 ‘혼란’스럽게 만들었고, 모든 엣지 케이스를 고려하느라 정작 명백한 위반 사례를 놓치게 만들었습니다.

📊 성능 비교 결과:

긴 정책: 4,023단어의 매뉴얼을 줬더니, AI는 보수적으로 변해 실제 ‘민감한’ 콘텐츠를 41%나 놓쳤습니다.

✅ 짧은 정책:

연구팀은 이 매뉴얼을 핵심만 남기고 단 96단어로 줄였습니다.

결과는 놀라웠습니다. 정책을 줄였을 뿐인데 ‘민감한’ 콘텐츠를 놓치는 비율이 34%로 크게 줄었고(0.07 포인트 감소), 전반적인 성능(AUC)도 0.73에서 0.79로 향상되었습니다.

🎯 핵심 교훈

AI에게 일을 시킬 때, 우리가 흔히 하는 실수는 가능한 한 많은 정보를 ‘때려 넣는’ 것입니다. 하지만 AI는 명확하고 간결한 ‘핵심 의도’를 선호합니다. 복잡한 매뉴얼은 오히려 AI의 판단력을 흐리게 할 수 있습니다.

비법 2: “Divide and Conquer” – 복잡한 문제는 쪼개서 질문하라

하지만 ‘클릭베이트(낚시성 콘텐츠)’처럼 개념 자체가 복잡한 경우는 어떨까요? ‘클릭베이트’는 ‘좋아요 유도’, ‘댓글 유도’, ‘팔로우 유도’ 등 다양한 하위 유형을 포함합니다. 이건 단순히 정책을 줄인다고 해결될 문제가 아니었죠.

여기서 연구팀은 두 번째 전략을 사용합니다. 바로 ‘분해하고 통합하기(Divide and Conquer)’입니다.

🧠 AI에게 어떻게 질문해야 할까요?

이는 마치 의사가 환자에게 “혹시 건강이 안 좋으신가요?”라고 막연하게 묻는 것과 같습니다. 환자는 “글쎄요… 좀 피곤한 것 같기도 하고…”라며 애매하게 답할 수밖에 없죠.

현명한 의사는 이렇게 묻습니다. “혈압은 어떠신가요?”, “최근 소화는 잘 되시나요?”, “잠은 잘 주무시나요?” 이렇게 구체적인 질문들을 모아 ‘건강 상태’라는 종합적인 결론을 내립니다.

❌ 단일 질문:

“이 비디오가 ‘클릭베이트’인지 0~100점으로 알려줘.”

➡️ AI가 여러 하위 유형을 동시에 고려해야 하므로 정확도가 떨어졌습니다.

✅ 분해 질문:

“이 비디오가 ‘좋아요 유도’에 해당하는지 0~100점으로 알려줘.”, “이 비디오가 ‘댓글 유도’에 해당하는지 0~100점으로 알려줘.”

➡️ 이렇게 8개의 하위 카테고리별로 점수를 매기게 한 뒤, 이 점수들을 합쳐서 최종 판단을 내렸습니다.

결과는 또 한 번의 승리였습니다. 문제를 잘게 쪼개서 질문하고 답을 통합하는 방식은, 기존의 단일 질문 방식보다 훨씬 뛰어난 성능을 보였고 심지어 이전에 사용하던 전문화된 모델의 성능까지 넘어섰습니다.

🎯 핵심 교훈

문제가 복잡하고 여러 하위 개념을 포함한다면, AI에게 한 번에 답을 요구하지 마십시오. 문제를 논리적인 하위 단계로 “분해”하여 각각을 평가하게 한 뒤, 그 결과를 “통합”하는 것이 훨씬 더 정확한 답을 얻는 길입니다.

🚀 “더 나은 AI”가 아니라 “더 나은 질문”

이 연구가 우리에게 주는 교훈은 명확합니다. GPT-4o 같은 강력한 AI 시대에, 성능의 한계는 종종 모델 자체가 아니라 우리의 “질문 방식”에 있습니다.

우리는 AI에게 수천 페이지짜리 매뉴얼을 던져주는 ‘방관자’가 아니라, 명확한 의도를 담아 간결하게 지시하고 복잡한 문제는 논리적으로 분해해서 요청하는 ‘스마트한 관리자’가 되어야 합니다.

결국, AI와의 뛰어난 협업은 “더 똑똑한 AI”를 기다리는 것이 아니라, “더 나은 질문”을 설계하는 우리 손에 달려 있습니다.

💡 실무 조언

혹시 지금 AI의 성능이 기대에 미치지 못한다면, AI가 아니라 우리가 주고 있는 ‘프롬프트’나 ‘가이드라인’을 먼저 점검해 보는 것은 어떨까요?

더 나은 AI 활용법을 배우고 싶다면 ProB AI 연구소의 다른 콘텐츠를 확인해보세요.

더 알아보기

Similar Posts