RAG 평가 — 근거성·회수율·환각을 어떻게 잴 것인가

이 글은 누구를 위한 것인가

사내 문서·FAQ에 답하는 챗봇, RAG를 쓰는 AI 기능을 기획·개발하는 분을 위한 글입니다. “답이 그럴듯하면 성공”이 아니라 근거가 있는지를 나누어 봅니다.

답의 정확도만 보면 컨텍스트 인용이 빠진 환각을 놓칩니다. 근거 스팬이 문서에 있는지부터 봅니다. 사용자에게는 한 줄 답이지만, 내부적으로는 어느 문장을 근거로 썼는지를 추적할 수 있어야 합니다.

질문·정답 근거 문단·금지 문단을 묶은 고정 세트로 회귀합니다. 매 릴리스마다 스코어가 떨어지지 않게 합니다.

로그에서 샘플링해 라벨링 큐로 보내고, 실패 패턴을 카테고리로 나눕니다. “환각” 한 단어로 뭉뚱그리면 개선이 안 됩니다.

평가는 일회성 벤치가 아니라 운영 지표입니다. 비용·지연과 함께 대시보드에 올립니다.