Cinq notes sur l’exécution d’un LLM en production. Présuppose une connaissance opérationnelle de l’attention et du KV cache (cf. Architecture des modèles).
Notes
- 08-kv-cache-management — Mémoire, fragmentation, eviction
- 09-prefill-vs-decode — Compute-bound vs memory-bound
- 10-continuous-batching-paged-attention — Throughput optimization
- 11-speculative-quant-distill — Trois familles d’accélération
- 12-quantization-deep-dive — INT8, INT4, FP8, GPTQ, AWQ