이 글은 누구를 위한 것인가
모델을 학습시키고 서비스에 올리는 ML·백엔드 담당자를 위한 글입니다. “새 모델이 더 좋은 것 같아요”로 배포하면, 롤백할 줄이 없을 때 사고가 납니다.
재현 가능한 번들
코드 커밋·데이터 버전·시드·환경을 한 아티팩트 ID로 묶습니다. 6개월 뒤 “그때 그 모델”을 다시 못 켜면 규제·감사 대응이 어렵습니다.
캐너리
트래픽 비율과 성공 기준(SLO)을 미리 정합니다. 임베딩 품질이 떨어지면 자동 롤백합니다.
롤백
API 호환 레이어에서 이전 모델 버전을 가리키게 하면 DB 마이그레이션 없이 되돌릴 수 있습니다.
맺으며
실험 추적만 하고 배포가 수동이면 운영 사고가 납니다. 파이프라인을 하나로 이어야 합니다.