Frontier LLM Systems

Comment lire ce wiki

Les notes sont numérotées dans l’ordre d’apprentissage : 01 → 37 part de l’architecture du Transformer pour arriver aux choix stratégiques (modèle, déploiement, fine-tuning, on-prem) et aux paradigmes émergents (reasoning, multimodal, MCP, EU AI Act). On peut lire en séquence, ou attaquer un parcours ciblé (voir plus bas).

Une ressource pour apprendre comment fonctionnent les modèles LLM frontier et comment ils sont mis en production. Chaque note est atomique, auto-suffisante, lisible en 5-10 minutes, et reliée aux notes connexes via wikilinks.

Pour qui

Ingénieur·e logiciel qui veut comprendre ce qu’il y a derrière une API LLM.
ML/AI engineer qui shippe des features LLM et qui veut un référentiel complet.
Curieux·se technique qui veut un mental model solide du domaine sans lire 30 papers.

Pour quoi

Couvrir, en français, le vocabulaire et les concepts canoniques de l’industrie : ceux qui circulent dans les papers, la documentation des providers (Mistral, OpenAI, Anthropic), les serving stacks (vLLM, TensorRT-LLM, SGLang), et les outils d’observability. Les termes anglais sont conservés tels quels, parce que c’est ainsi qu’ils sont utilisés partout.

Comment naviguer

Une note = un concept.
Wikilinks [[nom-de-fichier]] pour passer d’un concept à un autre.
Tags (cliquables en haut de chaque note) regroupent les notes d’un même cluster : #architecture, #inference, #applied, #retrieval-quality, #ops-safety, #meta.
Backlinks (colonne droite) montrent qui pointe vers la note courante.
Graphe (colonne droite) visualise les voisins immédiats.
Vocabulaire clé en fin de chaque note : les termes à connaître.
Synthèse en fin de chaque note : résumé condensé.
Glossaire global : _vocab.md (alphabétique, avec liens vers la note source).

Parcours suggérés

Choisis ton entrée

Chaque parcours est cohérent end-to-end. Si tu n’as pas d’a priori, prends fondamentaux d’abord.

Parcours “fondamentaux” (~6h) — bâtir un mental model des LLM 01-transformer-architecture → 02-position-encodings → 03-flash-attention → 04-tokenization → 05-mixture-of-experts → 06-distributed-training → 07-post-training-alignment

Parcours “inference et serving” (~5h) — comprendre comment un modèle est servi à scale 08-kv-cache-management → 09-prefill-vs-decode → 10-continuous-batching-paged-attention → 11-speculative-quant-distill → 12-quantization-deep-dive

Parcours “applied” (~7h) — shipper des features LLM en production 13-harness-engineering → 14-context-engineering → 15-prompt-vs-semantic-caching → 16-structured-outputs → 17-function-calling-reliability → 18-agent-guardrails → 19-model-routing-fallback → 20-rag-architecture

Parcours “qualité et opérations” (~5h) 21-retrieval-evals → 22-evals → 23-llm-observability → 24-cost-attribution → 25-safety-engineering → 26-multi-tenant-isolation

Parcours “synthèse” (~2h) — à lire en dernier 27-ft-vs-icl-vs-rag-vs-distill → 28-tradeoffs → 29-production-failure-modes

Parcours “choix stratégiques” (~4h) — quelle famille de modèle, où le déployer, comment le fine-tuner, et comment construire un cluster on-prem 30-open-vs-closed-source → 31-on-prem-vs-cloud → 32-fine-tuning-en-pratique → 33-on-premise-en-pratique

Parcours “paradigmes émergents 2025-2026” (~4h) — reasoning, multimodal, MCP, régulation 34-reasoning-models → 35-multimodal → 36-mcp-agent-protocols → 37-eu-ai-act

Plan thématique

Architecture des modèles · `#architecture`

01-transformer-architecture — Self-attention, MHA/MQA/GQA, FFN, normalisations
02-position-encodings — RoPE, ALiBi, YaRN, sliding window, alternatives
03-flash-attention — Tiling, online softmax, memory I/O
04-tokenization — BPE, SentencePiece, Tiktoken, multilingue
05-mixture-of-experts — Routing, expert capacity, Mixtral, DeepSeek
06-distributed-training — DP, ZeRO, FSDP, TP, PP, mixed precision
07-post-training-alignment — SFT, RLHF, DPO, Constitutional AI

Inference et serving · `#inference`

08-kv-cache-management — Mémoire, fragmentation, eviction
09-prefill-vs-decode — Compute-bound vs memory-bound
10-continuous-batching-paged-attention — Throughput optimization
11-speculative-quant-distill — Trois familles d’accélération
12-quantization-deep-dive — INT8, INT4, FP8, GPTQ, AWQ

Engineering autour du modèle · `#applied`

13-harness-engineering — Le système qui entoure le modèle
14-context-engineering — Sélectionner ce qui rentre dans le contexte
15-prompt-vs-semantic-caching — Deux types de cache distincts
16-structured-outputs — Schemas, repair loops, fallback
17-function-calling-reliability — Tool contracts, idempotency
18-agent-guardrails — Budgets, termination, stuck detection
19-model-routing-fallback — Router une gamme de modèles

Retrieval et qualité · `#retrieval-quality`

20-rag-architecture — Chunking, hybrid search, reranking
21-retrieval-evals — Recall, grounding, attribution
22-evals — Golden sets, adversarial, LLM-as-judge

Operations et sécurité · `#ops-safety`

23-llm-observability — Traces, spans, drift
24-cost-attribution — Par feature, workflow, tenant
25-safety-engineering — Prompt injection, data leakage, permissions
26-multi-tenant-isolation — Cache safety, cross-user contamination

Mise en perspective et choix stratégiques · `#meta`

27-ft-vs-icl-vs-rag-vs-distill — Decision framework
28-tradeoffs — Latency / quality / cost / reliability
29-production-failure-modes — Le bestiaire des défaillances
30-open-vs-closed-source — Open weights vs closed API, comparatif des labs frontier
31-on-prem-vs-cloud — Quatre niveaux de déploiement, drivers réels
32-fine-tuning-en-pratique — LoRA, QLoRA, datasets, hyperparamètres, outillage
33-on-premise-en-pratique — Hardware, réseau, datacenter, stack software, compliance
34-reasoning-models — o1/o3, DeepSeek R1, Magistral, QwQ, test-time compute scaling
35-multimodal — Vision (Pixtral, GPT-4o, Gemini), audio (Voxtral, Whisper, TTS)
36-mcp-agent-protocols — Model Context Protocol, gouvernance Linux Foundation
37-eu-ai-act — Classifications, GPAI 10²⁵ FLOPs, obligations, postures des labs

Clusters (graphe Obsidian)

Inference internals : 08-kv-cache-management ↔ 09-prefill-vs-decode ↔ 10-continuous-batching-paged-attention ↔ 03-flash-attention ↔ 12-quantization-deep-dive
Model architecture : 01-transformer-architecture ↔ 02-position-encodings ↔ 05-mixture-of-experts ↔ 06-distributed-training
Harness applied : 13-harness-engineering ↔ 14-context-engineering ↔ 16-structured-outputs ↔ 17-function-calling-reliability ↔ 18-agent-guardrails ↔ 19-model-routing-fallback
Retrieval : 20-rag-architecture ↔ 21-retrieval-evals ↔ 22-evals ↔ 15-prompt-vs-semantic-caching
Operations : 23-llm-observability ↔ 24-cost-attribution ↔ 29-production-failure-modes
Safety : 25-safety-engineering ↔ 26-multi-tenant-isolation ↔ 15-prompt-vs-semantic-caching
Méta : 27-ft-vs-icl-vs-rag-vs-distill ↔ 28-tradeoffs ↔ 29-production-failure-modes ↔ 07-post-training-alignment
Stratégie de déploiement : 30-open-vs-closed-source ↔ 31-on-prem-vs-cloud ↔ 32-fine-tuning-en-pratique ↔ 33-on-premise-en-pratique ↔ 27-ft-vs-icl-vs-rag-vs-distill ↔ 19-model-routing-fallback ↔ 26-multi-tenant-isolation
Paradigmes émergents 2025-2026 : 34-reasoning-models ↔ 35-multimodal ↔ 36-mcp-agent-protocols ↔ 37-eu-ai-act ↔ 07-post-training-alignment ↔ 17-function-calling-reliability

Notes

Les anciens slugs (01-harness-engineering, etc.) redirigent automatiquement vers les nouveaux via le plugin alias-redirects — pas de lien externe cassé.

description	Wiki en français sur les LLM frontier et leur mise en production : architecture, inference, harness applicatif, retrieval, ops, safety, choix stratégiques (modèle, déploiement, fine-tuning).
tags	index