이 글은 누구를 위한 것인가
OpenAI·클라우드 LLM API를 연동·운영하는 백엔드 분을 위한 글입니다. 429(Too Many Requests)는 “버그”가 아니라 서비스 한도 안에서 살아남는 법의 일부입니다.
429는 장애가 아니라 계약
클라이언트는 재시도 가능 응답과 불가 응답을 구분하고, 멱등 키를 씁니다.
버스트
피크 시간에 큐를 두고 토큰 버킷으로 평탄화합니다. 한꺼번에 트래픽을 보내면 전체가 같이 막힙니다.
캐시
시스템 프롬프트·RAG 상단이 매번 같다면 캐시 할인을 활용합니다. 변경 시 버전을 올립니다.
맺으며
모델 가격표가 바뀔 때마다 단가 대시보드를 갱신하지 않으면 예산이 깨집니다.