GPU 추론 — 지연·처리량·비용의 트레이드오프

이 글은 누구를 위한 것인가

AI API 비용이 늘어나 “왜 이렇게 나가지?”라고 본 분, 서비스에 추론을 붙이는 개발자를 위한 글입니다. GPU·토큰·지연은 트레이드오프 묶음으로 이해하는 편이 낫습니다.

처리량을 올리면 p99 지연이 늘 수 있습니다. 사용자 대면 API는 작은 배치가 나을 수 있습니다.

FP16·BFLOAT·양자화는 품질과 속도를 바꿉니다. 평가 세트로 허용 하한을 정합니다.

동일 프리픽스 요청이 많으면 KV 캐시 재사용이 비용을 줄입니다. 키 설계와 TTL 정책이 필요합니다.

비용은 GPU 시간만이 아니라 재시도·실패·오토스케일 지연까지 포함합니다.