토큰 경제학 (Token Economics)
LLM 서빙에서 토큰당 비용이 결정되는 원리. t_compute와 t_memory의 균형, 하드웨어 스펙, 배치 크기, context length가 복합 작용하여 API 가격 구조를 형성한다.
가격 구조가 만들어지는 원리
| 가격 항목 | 인프라 원인 |
|---|---|
| Output > Input 토큰 가격 | Decode(한 토큰씩)가 Prefill(병렬)보다 hardware utilization 낮음 |
| Context 200K 초과 티어 | KV 캐시 로딩이 지배적 → memory-bound 전환 → 서빙 가능 유저 수 급감 |
| 캐시 토큰 할인 | HBM에 KV 캐시 있으면 prefill 재계산 불필요 → 비용 절감 통과 |
| 캐시 TTL(5분/1시간) | KV 캐시 eviction 계층: HBM → DRAM → Flash → HDD |
KV 캐시 계층 eviction
HBM (즉시 hit)
↓ ~1분 미사용
CPU DRAM
↓ ~10분 미사용
Flash SSD
↓ TTL 만료
삭제 → 다음 요청 시 prefill 재실행 (비쌈)
서빙 가능 유저 수
- 모든 유저가 decode 중 → 유저당 토큰 1개 → 배치 2400 = 2400명 동시 가능
- 유저당 context 길어질수록(≥200K) → KV 캐시 메모리 점유 증가 → 동시 수용 유저 감소
- Chunked prefill: 긴 입력도 잘게 쪼개어 decode 배치에 혼재 → GPU 유휴 방지
API 가격 역산
프론티어 랩들은 경쟁 상황에서 원가 근처로 가격을 수렴시키기 때문에, API 가격표로 서빙 인프라 구조를 역산할 수 있다.