RAG 평가 — 근거성·회수율·환각을 어떻게 잴 것인가

AI

RAG평가환각

이 글은 누구를 위한 것인가

사내 문서·FAQ에 답하는 챗봇, RAG를 쓰는 AI 기능을 기획·개발하는 분을 위한 글입니다. “답이 그럴듯하면 성공”이 아니라 근거가 있는지를 나누어 봅니다.

무엇을 ‘맞다’고 할 것인가

답의 정확도만 보면 컨텍스트 인용이 빠진 환각을 놓칩니다. 근거 스팬이 문서에 있는지부터 봅니다. 사용자에게는 한 줄 답이지만, 내부적으로는 어느 문장을 근거로 썼는지를 추적할 수 있어야 합니다.

오프라인 세트

질문·정답 근거 문단·금지 문단을 묶은 고정 세트로 회귀합니다. 매 릴리스마다 스코어가 떨어지지 않게 합니다.

프로덕션

로그에서 샘플링해 라벨링 큐로 보내고, 실패 패턴을 카테고리로 나눕니다. “환각” 한 단어로 뭉뚱그리면 개선이 안 됩니다.

맺으며

평가는 일회성 벤치가 아니라 운영 지표입니다. 비용·지연과 함께 대시보드에 올립니다.