AI가 엑셀·DB 데이터를 헛소리할때 해결법: ‘지식 프롬프트 체이닝’
“여기 이 엑셀 파일, 열어서 내용 분석하고 보고서 초안 써줘.”
AI에게 이런 요청, 한 번쯤 해보셨을 겁니다. 그런데 결과가 썩 만족스럽지 않았던 경험도 있으시죠? 텍스트 파일은 곧잘 요약하던 AI가 유독 표나 데이터베이스 파일(CSV, JSON 등)만 만나면 핵심을 놓치거나 데이터 간의 관계를 엉뚱하게 해석하곤 합니다. 왜 그럴까요?
근본적인 이유는 AI, 즉 LLM이 본질적으로 순서대로 나열된 ‘글’을 읽고 쓰는 데 특화된 모델이기 때문입니다. 행과 열로 이루어진 데이터의 ‘구조’를 파악하고, 그 안에 숨겨진 ‘관계’를 이해하는 것은 전혀 다른 차원의 문제입니다. 마치 뛰어난 소설가에게 설계 도면을 해석하라고 시키는 것과 같죠.
하지만 만약 우리가 AI에게 이 설계 도면을 읽는 법, 즉 데이터의 ‘지도’와 ‘나침반’을 쥐여줄 수 있다면 어떨까요? “의미론적 모델링을 위한 지식 프롬프트 체이닝(Knowledge Prompt Chaining for Semantic Modeling)” (원문보기)이라는 논문이 바로 이 문제에 대한 명쾌한 해법을 제시합니다.
이 글에서는 AI가 당신의 데이터를 단순 변환하는 것을 넘어, 그 의미를 깊이 ‘이해’하게 만드는 이 기술의 핵심 원리를 쉽고 명쾌하게 설명해 드리겠습니다.
1. 무엇이 문제였을까요?: AI와 구조화된 데이터
우리 회사의 고객 목록, 판매 기록, 재고 현황 등 가치 있는 정보는 대부분 잘 정리된 ‘구조화된 데이터’입니다. 이 데이터들을 서로 연결하고 통합해서 새로운 통찰을 얻으려면, 각 데이터 항목이 무엇을 의미하고(Semantic Labeling), 다른 항목과 어떤 관계를 맺는지(Semantic Graph Building) 정의하는 ‘의미론적 모델링’ 과정이 필수적입니다.
과거에는 이 작업을 위해 전문가들이 많은 시간과 노력을 들여 수동으로 규칙을 만들거나 복잡한 모델을 훈련시켜야 했습니다. 이는 마치 요리사에게 재료 목록만 던져주고, 레시피는 알아서 터득하라고 하는 것과 같았습니다. 당연히 비효율적이고 결과물의 품질도 들쑥날쑥했죠.
2. 새로운 해법: 지식 프롬프트 체이닝
이 논문은 복잡한 작업을 LLM이 가장 잘하는 방식, 즉 ‘글’을 읽고 쓰는 방식으로 풀어냅니다. 핵심 아이디어는 두 단계로 나뉘는 영리한 ‘업무 프로세스’를 설계하는 것입니다.
1단계: AI에게 ‘배경지식’ 가르치기 (Knowledge Integration)
본격적으로 일을 시키기 전, 먼저 AI에게 데이터에 대한 ‘사용 설명서’를 학습시키는 단계입니다.
- 잘못된 방식: AI에게 1000줄짜리 엑셀 파일을 통째로 던져주며 “알아서 분석해 봐.”라고 말합니다.
올바른 방식:
- 데이터 요약본 전달 (Serialization): 분석할 데이터 중 단 3개의 샘플 데이터와, 데이터의 규칙(온톨로지)을 AI가 읽기 쉬운 텍스트 형식으로 변환합니다. 전체 데이터가 필요 없다는 점에서 비용 효율성이 극대화됩니다.
- 지식 주입 (Knowledge Injection): 이 요약본을 시스템 프롬프트에 넣어 AI에게 전달합니다. 이는 AI에게 “자, 지금부터 이 규칙과 예시를 기준으로 생각해야 해. 이게 이번 업무의 핵심이야.”라고 명확한 가이드라인을 주는 것과 같습니다.
2단계: 업무를 나누어 순서대로 지시하기 (Prompt Chaining)
배경지식을 익힌 AI에게 이제 실제 업무를 맡깁니다. 이때, 복잡한 업무를 하나의 프롬프트로 처리하는 대신, 두 개의 프롬프트로 나누어 사슬처럼 연결합니다.
- Chain 1 (의미 파악): 첫 번째 프롬프트는 새로운 데이터의 각 항목(예: ‘고객명’, ‘구매일’)이 우리가 미리 알려준 규칙(온톨로지)에서 어떤 의미를 갖는지 찾아내도록 지시합니다. “이 데이터는 ‘사람 이름’이고, 저 데이터는 ‘날짜’를 의미하는군.” 하고 AI가 스스로 파악하게 만드는 것이죠.
- Chain 2 (관계 구축): 첫 번째 단계에서 얻은 ‘의미’들을 입력값으로 받아, 두 번째 프롬프트가 그 의미들 사이의 관계를 추론하여 최종적인 ‘의미 모델’을 완성합니다. “아하, ‘사람 이름’과 ‘날짜’는 ‘구매 행위’로 연결되는구나!” 하고 결론을 내리게 됩니다.
이처럼 복잡한 작업을 두 단계로 나누어 순차적으로 처리함으로써, AI는 마치 전문가처럼 단계별 추론을 수행합니다. 이는 AI가 엉뚱한 상상(환각)을 하는 것을 막고 결과의 정확성을 극적으로 높이는 핵심 전략입니다.
3. 그래서, 얼마나 효과적일까요?
이론은 그럴듯한데, 실제 성능은 어떨까요? 논문의 실험 결과는 놀라웠습니다.
- 의미 파악 정확도: ‘지식 프롬프트 체이닝’ 방식은 기존 최고 성능 모델(89.0%)을 훌쩍 뛰어넘어, 정확도가 최대 99.1%에 달했습니다.
- 최종 결과물 품질: 최종 결과물의 정확도 역시 기존 방식들보다 최대 5.9% 높았으며, 복잡한 데이터셋에서도 90%가 넘는 높은 정확도와 재현율을 기록했습니다.
더 인상적인 점은, 단 하나의 예시 데이터만 제공하는 환경에서도 90%가 넘는 높은 정확도를 보였다는 사실입니다. 이는 LLM이 이미 가진 방대한 사전 지식 덕분에, 최소한의 힌트만으로도 뛰어난 추론 능력을 발휘할 수 있음을 증명합니다.
4. 이 기술, 내 업무를 어떻게 바꿀 수 있을까요?
이 기술은 당장 우리 업무에 적용할 수 있는 강력한 통찰을 줍니다.
예시 상황: 여러 부서에서 각기 다른 양식으로 작성된 엑셀 파일을 취합해 분기 보고서를 만들어야 합니다. A 부서는 ‘판매량’, B 부서는 ‘매출액’이라는 항목을 쓰고, ‘담당자’와 ‘책임자’가 같은 의미인지 달라 매번 데이터를 합치는 데만 며칠씩 걸립니다.
해결책: ‘지식 프롬프트 체이닝’ 원리를 적용합니다. 먼저 우리 회사 데이터의 표준 규칙(‘판매량’과 ‘매출액’은 다른 개념, ‘담당자’와 ‘책임자’는 동일 직급 등)을 정의한 ‘지식’을 AI에게 알려줍니다. 그다음, (1) 각 파일의 항목들이 표준 규칙에서 어떤 의미인지 파악하게 하고, (2) 그 결과를 바탕으로 데이터를 통합하라고 지시합니다. AI는 명확한 기준에 따라 데이터를 통합하여 정확한 보고서를 단 몇 분 만에 생성할 것입니다.
핵심은 ‘문제를 잘게 나누고, 각 단계에 필요한 지식을 명확히 제공하는 것’입니다. 이 원칙 하나만 기억해도 여러분과 AI의 협업 수준은 완전히 달라질 겁니다.
결론: 단순 ‘변환’을 넘어 ‘이해’의 시대로
‘지식 프롬프트 체이닝’은 AI 활용의 패러다임을 바꾸는 기술입니다. 이제 우리는 AI에게 단순히 텍스트를 요약하고 변환하는 작업을 시키는 것을 넘어, 데이터의 깊은 구조와 맥락을 ‘이해’하고 ‘추론’하도록 만들 수 있습니다.
복잡한 과업일수록 잘게 나누고(Chaining), 각 단계에 필요한 배경지식(Knowledge)을 명확하게 제공하세요. 이 원칙이 여러분의 AI를 단순한 조수가 아닌, 진정한 데이터 전문가 파트너로 만들어 줄 것입니다.
다음 포스팅 예고: AI가 내 데이터의 ‘구조’를 이해하게 만들었습니다. 하지만 AI의 답변이 자꾸 논리적으로 어긋난다면 어떨까요? 다음 시간에는 AI의 근본적인 ‘논리 근육’을 단련시켜 엉뚱한 답변을 바로잡는 ‘ChainLM’ 심층 분석이 이어집니다. → 다음 글 읽어보기