Comment lire ce wiki

Les notes sont numérotées dans l’ordre d’apprentissage : 01 → 37 part de l’architecture du Transformer pour arriver aux choix stratégiques (modèle, déploiement, fine-tuning, on-prem) et aux paradigmes émergents (reasoning, multimodal, MCP, EU AI Act). On peut lire en séquence, ou attaquer un parcours ciblé (voir plus bas).

Une ressource pour apprendre comment fonctionnent les modèles LLM frontier et comment ils sont mis en production. Chaque note est atomique, auto-suffisante, lisible en 5-10 minutes, et reliée aux notes connexes via wikilinks.

Pour qui

  • Ingénieur·e logiciel qui veut comprendre ce qu’il y a derrière une API LLM.
  • ML/AI engineer qui shippe des features LLM et qui veut un référentiel complet.
  • Curieux·se technique qui veut un mental model solide du domaine sans lire 30 papers.

Pour quoi

Couvrir, en français, le vocabulaire et les concepts canoniques de l’industrie : ceux qui circulent dans les papers, la documentation des providers (Mistral, OpenAI, Anthropic), les serving stacks (vLLM, TensorRT-LLM, SGLang), et les outils d’observability. Les termes anglais sont conservés tels quels, parce que c’est ainsi qu’ils sont utilisés partout.

Comment naviguer

  • Une note = un concept.
  • Wikilinks [[nom-de-fichier]] pour passer d’un concept à un autre.
  • Tags (cliquables en haut de chaque note) regroupent les notes d’un même cluster : #architecture, #inference, #applied, #retrieval-quality, #ops-safety, #meta.
  • Backlinks (colonne droite) montrent qui pointe vers la note courante.
  • Graphe (colonne droite) visualise les voisins immédiats.
  • Vocabulaire clé en fin de chaque note : les termes à connaître.
  • Synthèse en fin de chaque note : résumé condensé.
  • Glossaire global : _vocab.md (alphabétique, avec liens vers la note source).

Parcours suggérés

Choisis ton entrée

Chaque parcours est cohérent end-to-end. Si tu n’as pas d’a priori, prends fondamentaux d’abord.

Parcours “fondamentaux” (~6h) — bâtir un mental model des LLM 01-transformer-architecture02-position-encodings03-flash-attention04-tokenization05-mixture-of-experts06-distributed-training07-post-training-alignment

Parcours “inference et serving” (~5h) — comprendre comment un modèle est servi à scale 08-kv-cache-management09-prefill-vs-decode10-continuous-batching-paged-attention11-speculative-quant-distill12-quantization-deep-dive

Parcours “applied” (~7h) — shipper des features LLM en production 13-harness-engineering14-context-engineering15-prompt-vs-semantic-caching16-structured-outputs17-function-calling-reliability18-agent-guardrails19-model-routing-fallback20-rag-architecture

Parcours “qualité et opérations” (~5h) 21-retrieval-evals22-evals23-llm-observability24-cost-attribution25-safety-engineering26-multi-tenant-isolation

Parcours “synthèse” (~2h) — à lire en dernier 27-ft-vs-icl-vs-rag-vs-distill28-tradeoffs29-production-failure-modes

Parcours “choix stratégiques” (~4h) — quelle famille de modèle, où le déployer, comment le fine-tuner, et comment construire un cluster on-prem 30-open-vs-closed-source31-on-prem-vs-cloud32-fine-tuning-en-pratique33-on-premise-en-pratique

Parcours “paradigmes émergents 2025-2026” (~4h) — reasoning, multimodal, MCP, régulation 34-reasoning-models35-multimodal36-mcp-agent-protocols37-eu-ai-act

Plan thématique

Architecture des modèles · #architecture

  1. 01-transformer-architecture — Self-attention, MHA/MQA/GQA, FFN, normalisations
  2. 02-position-encodings — RoPE, ALiBi, YaRN, sliding window, alternatives
  3. 03-flash-attention — Tiling, online softmax, memory I/O
  4. 04-tokenization — BPE, SentencePiece, Tiktoken, multilingue
  5. 05-mixture-of-experts — Routing, expert capacity, Mixtral, DeepSeek
  6. 06-distributed-training — DP, ZeRO, FSDP, TP, PP, mixed precision
  7. 07-post-training-alignment — SFT, RLHF, DPO, Constitutional AI

Inference et serving · #inference

  1. 08-kv-cache-management — Mémoire, fragmentation, eviction
  2. 09-prefill-vs-decode — Compute-bound vs memory-bound
  3. 10-continuous-batching-paged-attention — Throughput optimization
  4. 11-speculative-quant-distill — Trois familles d’accélération
  5. 12-quantization-deep-dive — INT8, INT4, FP8, GPTQ, AWQ

Engineering autour du modèle · #applied

  1. 13-harness-engineering — Le système qui entoure le modèle
  2. 14-context-engineering — Sélectionner ce qui rentre dans le contexte
  3. 15-prompt-vs-semantic-caching — Deux types de cache distincts
  4. 16-structured-outputs — Schemas, repair loops, fallback
  5. 17-function-calling-reliability — Tool contracts, idempotency
  6. 18-agent-guardrails — Budgets, termination, stuck detection
  7. 19-model-routing-fallback — Router une gamme de modèles

Retrieval et qualité · #retrieval-quality

  1. 20-rag-architecture — Chunking, hybrid search, reranking
  2. 21-retrieval-evals — Recall, grounding, attribution
  3. 22-evals — Golden sets, adversarial, LLM-as-judge

Operations et sécurité · #ops-safety

  1. 23-llm-observability — Traces, spans, drift
  2. 24-cost-attribution — Par feature, workflow, tenant
  3. 25-safety-engineering — Prompt injection, data leakage, permissions
  4. 26-multi-tenant-isolation — Cache safety, cross-user contamination

Mise en perspective et choix stratégiques · #meta

  1. 27-ft-vs-icl-vs-rag-vs-distill — Decision framework
  2. 28-tradeoffs — Latency / quality / cost / reliability
  3. 29-production-failure-modes — Le bestiaire des défaillances
  4. 30-open-vs-closed-source — Open weights vs closed API, comparatif des labs frontier
  5. 31-on-prem-vs-cloud — Quatre niveaux de déploiement, drivers réels
  6. 32-fine-tuning-en-pratique — LoRA, QLoRA, datasets, hyperparamètres, outillage
  7. 33-on-premise-en-pratique — Hardware, réseau, datacenter, stack software, compliance
  8. 34-reasoning-models — o1/o3, DeepSeek R1, Magistral, QwQ, test-time compute scaling
  9. 35-multimodal — Vision (Pixtral, GPT-4o, Gemini), audio (Voxtral, Whisper, TTS)
  10. 36-mcp-agent-protocols — Model Context Protocol, gouvernance Linux Foundation
  11. 37-eu-ai-act — Classifications, GPAI 10²⁵ FLOPs, obligations, postures des labs

Clusters (graphe Obsidian)

Notes

Les anciens slugs (01-harness-engineering, etc.) redirigent automatiquement vers les nouveaux via le plugin alias-redirects — pas de lien externe cassé.