Frontier LLM Systems

❯

Inference et serving

Inference et serving

Properties2

description	Comment un LLM est exécuté à scale : KV cache, deux régimes hardware, continuous batching, speculative decoding, quantization.
tags	cluster-index

08 juin 20261 min de lecture

Cinq notes sur l’exécution d’un LLM en production. Présuppose une connaissance opérationnelle de l’attention et du KV cache (cf. Architecture des modèles).

Notes

08-kv-cache-management — Mémoire, fragmentation, eviction
09-prefill-vs-decode — Compute-bound vs memory-bound
10-continuous-batching-paged-attention — Throughput optimization
11-speculative-quant-distill — Trois familles d’accélération
12-quantization-deep-dive — INT8, INT4, FP8, GPTQ, AWQ

5 éléments sous ce dossier.

08 juin 2026
08. KV cache management à grande échelle
- inference
08 juin 2026
09. Prefill vs decode latency
- inference
08 juin 2026
10. Continuous batching et paged attention
- inference
08 juin 2026
11. Speculative decoding, quantization, distillation
- inference
08 juin 2026
12. Quantization deep-dive
- inference

Créé avec Quartz v5.0.0 © 2026

GitHub