Frontier LLM Systems

GitHub
Home

❯

Inference et serving

Inference et serving

Properties2
descriptionComment un LLM est exécuté à scale : KV cache, deux régimes hardware, continuous batching, speculative decoding, quantization.
tagscluster-index

08 juin 20261 min de lecture

Cinq notes sur l’exécution d’un LLM en production. Présuppose une connaissance opérationnelle de l’attention et du KV cache (cf. Architecture des modèles).

Notes

  1. 08-kv-cache-management — Mémoire, fragmentation, eviction
  2. 09-prefill-vs-decode — Compute-bound vs memory-bound
  3. 10-continuous-batching-paged-attention — Throughput optimization
  4. 11-speculative-quant-distill — Trois familles d’accélération
  5. 12-quantization-deep-dive — INT8, INT4, FP8, GPTQ, AWQ

5 éléments sous ce dossier.

  • 08 juin 2026

    08. KV cache management à grande échelle

    • inference
  • 08 juin 2026

    09. Prefill vs decode latency

    • inference
  • 08 juin 2026

    10. Continuous batching et paged attention

    • inference
  • 08 juin 2026

    11. Speculative decoding, quantization, distillation

    • inference
  • 08 juin 2026

    12. Quantization deep-dive

    • inference

Créé avec Quartz v5.0.0 © 2026

  • GitHub