Glossaire

Format

Tous les termes anglais canoniques, classés par ordre alphabétique. Format : terme — sens court — fiche-source

A

acceptance rate — % de tokens acceptés du draft model en speculative decoding — 11-speculative-quant-distill
adapter (LoRA) — modules bas-rang ajoutés sur base frozen — 27-ft-vs-icl-vs-rag-vs-distill · 32-fine-tuning-en-pratique
adapter merging — fusion LoRA dans base weights pour serving — 32-fine-tuning-en-pratique
adversarial image — image conçue pour induire classification erronée — 35-multimodal
adversarial test — case designed pour casser — 22-evals
Agentic AI Foundation (AAIF) — Linux Foundation entity governing MCP — 36-mcp-agent-protocols
aha moment (RL) — moment où le modèle change de stratégie en raisonnement — 34-reasoning-models
air-gap — cluster sans accès Internet sortant — 33-on-premise-en-pratique
AIME — American Invitational Mathematics Examination, benchmark reasoning — 34-reasoning-models
AI Act (EU) — Règlement (UE) 2024/1689 sur l’IA — 37-eu-ai-act
AI Liability Directive — régime responsabilité civile IA (EU, en discussion) — 37-eu-ai-act
AI Office (EU) — autorité européenne gouvernance IA — 37-eu-ai-act
ALM (Audio-Language Model) — modèle multimodal audio + texte — 35-multimodal
ANSSI SecNumCloud — qualification cloud souverain français — 33-on-premise-en-pratique
Article 51 (AI Act) — seuil GPAI risque systémique — 37-eu-ai-act
ARC-AGI — Abstraction and Reasoning Corpus, benchmark frontier — 34-reasoning-models
agent loop — event loop d’orchestration {model → tool → observation} — 13-harness-engineering · 18-agent-guardrails
AI feedback — feedback généré par un modèle (Constitutional AI) — 07-post-training-alignment
ALiBi — position encoding via biais linéaire — 02-position-encodings
all-reduce — communication collective de sommation — 06-distributed-training
all-to-all — communication MoE expert parallelism — 05-mixture-of-experts · 06-distributed-training
alpha (LoRA) — scaling factor des matrices adapter — 32-fine-tuning-en-pratique
AMP (Automatic Mixed Precision) — API PyTorch mixed precision — 06-distributed-training
answer relevancy — la réponse adresse-t-elle la question — 21-retrieval-evals
Apache 2.0 — licence open-source permissive (Mistral, Qwen, DeepSeek) — 30-open-vs-closed-source
approval gate — confirmation user requise avant action critique — 18-agent-guardrails
arithmetic intensity — ratio compute / memory access — 09-prefill-vs-decode
attention dilution — perte d’attention sur long context — 14-context-engineering
attribution — citation explicite des sources — 21-retrieval-evals
auxiliary-loss-free balancing — load balancing MoE sans loss auxiliaire (DeepSeek-V3) — 05-mixture-of-experts
AWQ — Activation-aware Weight Quantization — 12-quantization-deep-dive
axolotl — framework recipe-driven fine-tuning — 32-fine-tuning-en-pratique

B

B200 — Nvidia Blackwell GPU, 192 GB HBM3e, 1000W — 33-on-premise-en-pratique
BAA (Business Associate Agreement) — contrat HIPAA santé US — 31-on-prem-vs-cloud
best-of-N — sample N réponses, sélectionne la meilleure — 34-reasoning-models
Bradley-Terry — modèle de préférence en RLHF — 07-post-training-alignment
break-even — seuil économique cloud → self-hosted — 30-open-vs-closed-source · 31-on-prem-vs-cloud
Bright Cluster Manager — orchestrateur HPC commercial — 33-on-premise-en-pratique
BF16 — brain float 16, range FP32 / précision réduite — 12-quantization-deep-dive · 06-distributed-training
bi-encoder — embedding query et chunk séparément — 20-rag-architecture
block size — taille des pages KV — 08-kv-cache-management
BM25 — sparse retrieval TF-IDF — 20-rag-architecture
BNB (bitsandbytes) — lib quantization — 12-quantization-deep-dive
BOS (Beginning Of Sequence) — token de début — 04-tokenization
BPE (Byte-Pair Encoding) — algorithme de tokenization — 04-tokenization
bubble — gap idle en pipeline parallelism — 06-distributed-training
budget enforcement — kill switch sur dépassement — 18-agent-guardrails · 24-cost-attribution
byte-level BPE — BPE sur les bytes — 04-tokenization
byte-level fallback — decomposition en bytes si OOV — 04-tokenization

C

cache breakpoint — marqueur fin de prefix cachable — 15-prompt-vs-semantic-caching
cache hit ratio — % requêtes servies du cache — 15-prompt-vs-semantic-caching
cache poisoning — cache contaminé cross-user — 29-production-failure-modes
calibration (alignment) — confiance reflète l’incertitude — 07-post-training-alignment
calibration set — dataset pour calibrer quantization — 12-quantization-deep-dive
capacity factor — multiplicateur de l’expert capacity (MoE) — 05-mixture-of-experts
capability frontier — niveau de capability max actuel — 30-open-vs-closed-source
CAPEX (Capital Expenditure) — investissement initial (GPU, datacenter) — 30-open-vs-closed-source · 31-on-prem-vs-cloud
CDU (Coolant Distribution Unit) — distribution liquide refroidissement — 33-on-premise-en-pratique
CE marking — marquage conformité produit EU — 37-eu-ai-act
chain-of-thought (CoT) — raisonnement intermédiaire avant réponse — 34-reasoning-models
ChartQA — benchmark VLM sur charts — 35-multimodal
Claude Code — agent terminal-native Anthropic, MCP-deep — 36-mcp-agent-protocols
Clos topology — folded tree, fabric datacenter — 33-on-premise-en-pratique
cold-start SFT — SFT initial avant RL reasoning — 34-reasoning-models
Computer Use — protocole Anthropic agent contrôlant UI — 36-mcp-agent-protocols · 35-multimodal
Constitutional AI (Anthropic posture) — alignment basé sur constitution — 07-post-training-alignment · 37-eu-ai-act
Continue.dev — IDE coding agent OSS, client MCP — 36-mcp-agent-protocols
copyright policy (AI Act) — obligation provider GPAI — 37-eu-ai-act
CoreWeave — neocloud GPU spécialisé — 33-on-premise-en-pratique
cross-attention (multimodal) — attention entre modalités — 35-multimodal
cardinality — # valeurs distinctes d’un tag — 24-cost-attribution
cascade routing — try small puis fallback large — 19-model-routing-fallback
catastrophic forgetting — fine-tune efface skills initiaux — 27-ft-vs-icl-vs-rag-vs-distill · 32-fine-tuning-en-pratique
causal mask — masque pour decoder-only — 01-transformer-architecture
chunked prefill — prefill split en morceaux — 09-prefill-vs-decode · 10-continuous-batching-paged-attention
chunking — découpage doc en chunks — 20-rag-architecture
circuit breaker — écarter provider qui échoue — 19-model-routing-fallback
citation accuracy — citation pointe au bon contenu — 21-retrieval-evals
classifier-based routing — classifie query → route — 19-model-routing-fallback
closed source — modèle fermé, accès par API uniquement — 30-open-vs-closed-source
colocation — datacenter loué (rack/cage) — 31-on-prem-vs-cloud
commercial license — usage payant, contrat — 30-open-vs-closed-source
compaction — compresser tours anciens — 14-context-engineering
compensating action — annule l’effet d’une partial failure — 17-function-calling-reliability · 29-production-failure-modes
compute-bound — bottleneck = TFLOPS — 09-prefill-vs-decode
concept drift — distribution des inputs change — 23-llm-observability
confabulation — invention de faits sous pression — 07-post-training-alignment
constrained decoding — sampler limité par grammaire — 16-structured-outputs
Constitutional AI — alignment via constitution — 07-post-training-alignment
context engineering — sélectionner ce qui rentre — 14-context-engineering
cosine schedule — décroissance lr en cosinus — 32-fine-tuning-en-pratique
context parallelism — split de la dimension séquence — 06-distributed-training
context relevancy — chunks pertinents pour la question — 21-retrieval-evals
contextualized chunks — chunk préfixé de son origine — 20-rag-architecture
continuous batching — scheduling iteration-level — 10-continuous-batching-paged-attention
cosine similarity — métrique embedding — 20-rag-architecture
cost attribution — décomposition du coût — 24-cost-attribution
cost budget — max $ par session — 18-agent-guardrails · 24-cost-attribution
cross-attention — attention encoder → decoder — 01-transformer-architecture
cross-encoder — query et chunk dans un transformer — 20-rag-architecture
cross-tenant leak — fuite entre tenants — 26-multi-tenant-isolation
cross-user contamination — fuite entre users — 26-multi-tenant-isolation

D

data exfiltration — leak data via prompt injection — 25-safety-engineering
data leakage — PII exposé indûment — 25-safety-engineering
data parallelism (DP) — duplication du modèle, split des données — 06-distributed-training
data residency — où la data réside physiquement — 30-open-vs-closed-source · 31-on-prem-vs-cloud
data sovereignty — juridiction sur la data — 31-on-prem-vs-cloud
DCGM — Nvidia Data Center GPU Manager — 33-on-premise-en-pratique
DCQCN — congestion control RoCE — 33-on-premise-en-pratique
DDP (Distributed Data Parallel) — implémentation PyTorch de DP — 06-distributed-training
decode — phase autoregressive memory-bound — 09-prefill-vs-decode
DeepSeek R1 — premier OSS reasoning frontier, MIT — 34-reasoning-models · 30-open-vs-closed-source
DeepSeek V3 — base model MoE 671B/37B actifs — 30-open-vs-closed-source · 33-on-premise-en-pratique
Devstral — modèle Mistral agentic coding — 30-open-vs-closed-source · 35-multimodal
DGX — Nvidia AI workstation/server brand — 33-on-premise-en-pratique
direct-to-chip cooling (D2C) — refroidissement liquide GPU — 33-on-premise-en-pratique
DocVQA — benchmark VLM sur documents — 35-multimodal
DORA — Digital Operational Resilience Act (finance EU) — 37-eu-ai-act
DSA — Digital Services Act (EU) — 37-eu-ai-act
degraded mode — service fonctionne partiellement — 19-model-routing-fallback
dense retrieval — search par embeddings — 20-rag-architecture
disaggregated serving — prefill et decode sur GPUs séparés — 09-prefill-vs-decode
disaster recovery — plan de reprise après panne — 31-on-prem-vs-cloud
distillation — student imite teacher — 11-speculative-quant-distill
DoRA — Weight-Decomposed LoRA, variante supérieure — 32-fine-tuning-en-pratique
DPA (Data Processing Agreement) — accord RGPD entre data controller et processor — 31-on-prem-vs-cloud
DPO (Direct Preference Optimization) — alignment sans reward model — 07-post-training-alignment
draft model — petit modèle pour speculative — 11-speculative-quant-distill
drift detection — repérer changement distribution — 23-llm-observability

E

EAGLE — speculative decoding via head supplémentaire — 11-speculative-quant-distill
embedding drift — distance entre embeddings sur périodes — 23-llm-observability
embeddings — vecteurs sémantiques — 20-rag-architecture
EOS (End Of Sequence) — token de fin — 04-tokenization
eval harness — framework qui run les evals — 22-evals
event loop — orchestration agent — 13-harness-engineering
eviction — virer du cache — 08-kv-cache-management
expert capacity — limite tokens par expert MoE — 05-mixture-of-experts
expert parallelism — experts MoE distribués sur GPUs — 05-mixture-of-experts · 06-distributed-training

F

faithfulness — réponse supportée par le contexte — 21-retrieval-evals
fallback chain — séquence de fallbacks — 16-structured-outputs · 19-model-routing-fallback
early fusion — vision tokens injectés dans embedding LLM — 35-multimodal
extended thinking — mode reasoning transparent Claude — 34-reasoning-models
fallback cross-level — backup d’un niveau déploiement à un autre (self-hosted → API) — 31-on-prem-vs-cloud
FedRAMP — certification cloud gouvernement US — 33-on-premise-en-pratique
few-shot — exemples dans le prompt — 27-ft-vs-icl-vs-rag-vs-distill
FFN (Feed-Forward Network) — sous-bloc MLP du Transformer — 01-transformer-architecture
fine-grained experts — petits experts nombreux (DeepSeek) — 05-mixture-of-experts
fine-tuning — update weights — 27-ft-vs-icl-vs-rag-vs-distill · 32-fine-tuning-en-pratique
finish_reason — pourquoi le decode s’arrête — 23-llm-observability
finite-state machine — base de constrained decoding — 16-structured-outputs
FlashAttention — attention exact avec tiling — 03-flash-attention
FlashDecoding — variante FlashAttention pour decode — 03-flash-attention
FP8 (E4M3, E5M2) — format quantization moderne — 12-quantization-deep-dive · 06-distributed-training
FP16 — float 16 standard — 12-quantization-deep-dive · 06-distributed-training
fragmentation (VRAM) — gaspillage d’allocation — 08-kv-cache-management
freshness — fraîcheur des chunks — 20-rag-architecture
FrontierMath — benchmark math research-level — 34-reasoning-models
Frontier Safety Framework — Google DeepMind safety posture — 37-eu-ai-act
FSDP (Fully Sharded Data Parallel) — équivalent PyTorch de ZeRO-3 — 06-distributed-training
full fine-tuning — tous params trainable, opposé de LoRA — 32-fine-tuning-en-pratique
function calling — modèle choisit tool + args — 17-function-calling-reliability · 36-mcp-agent-protocols

G

GB200 NVL72 — Nvidia rack-scale 72 B200 + 36 Grace, 120-130 kW — 33-on-premise-en-pratique
GB300 — Nvidia Blackwell Ultra rack-scale — 33-on-premise-en-pratique
GDPR / RGPD — règlement européen protection des données — 31-on-prem-vs-cloud · 37-eu-ai-act
Gemma — Google open-weight model family — 30-open-vs-closed-source
Gemini 2 — Google closed multimodal frontier — 30-open-vs-closed-source · 35-multimodal
Genkit (Google) — framework AI agents — 36-mcp-agent-protocols
GELU — activation Gaussian Error Linear Unit — 01-transformer-architecture
gen_ai semantic conventions — schema OpenTelemetry pour LLM — 23-llm-observability
GGUF — format fichier llama.cpp — 12-quantization-deep-dive
golden set — dataset référence pour evals — 22-evals
goodput — tokens utiles dans SLA — 10-continuous-batching-paged-attention
GPipe — schedule pipeline parallelism — 06-distributed-training
GPTQ — Generalized Post-Training Quantization — 12-quantization-deep-dive
GPU operator — Kubernetes operator pour GPU scheduling — 31-on-prem-vs-cloud · 33-on-premise-en-pratique
GPUDirect RDMA — bypass CPU pour transferts GPU↔NIC — 33-on-premise-en-pratique
GPUDirect Storage — bypass CPU pour GPU↔NVMe — 33-on-premise-en-pratique
GPAI (General-Purpose AI) — classe de modèles AI Act — 37-eu-ai-act
GPQA — graduate-level science benchmark — 34-reasoning-models
GQA (Grouped Query Attention) — partage K/V entre groupes de heads — 01-transformer-architecture · 08-kv-cache-management
GRPO (Group Relative Policy Optimization) — RL algorithm DeepSeek — 34-reasoning-models
GPT-4o — OpenAI multimodal natif unifié — 35-multimodal · 30-open-vs-closed-source
graceful degradation — fail gracefully — 16-structured-outputs · 19-model-routing-fallback
gradient accumulation — accumule grad avant update pour batch effectif — 32-fine-tuning-en-pratique
grammar-constrained sampling — sampling avec grammaire — 16-structured-outputs
grounding — chaque claim trace à une source — 21-retrieval-evals
guided decoding — synonyme constrained decoding — 16-structured-outputs

H

hallucinated tool call — modèle invente un tool — 29-production-failure-modes
hallucination — invention factuelle — 07-post-training-alignment
hard limit — budget non-négociable — 18-agent-guardrails
harness — système autour du modèle — 13-harness-engineering
H100 / H200 — Nvidia Hopper GPU SXM 80/141 GB — 33-on-premise-en-pratique
HBM — High Bandwidth Memory (VRAM GPU) — 08-kv-cache-management · 03-flash-attention
HDS — Hébergeur de Données de Santé (France) — 31-on-prem-vs-cloud · 33-on-premise-en-pratique
hedging — lancer 2 providers en parallèle — 19-model-routing-fallback
held-out set — % du dataset gardé hors training pour éval — 32-fine-tuning-en-pratique
HGX — Nvidia 8-GPU baseboard reference (H100/H200/B200) — 33-on-premise-en-pratique
HIPAA — règlement santé US — 31-on-prem-vs-cloud · 33-on-premise-en-pratique
high-risk system (AI Act) — usage classé risque élevé — 37-eu-ai-act
hit rate — au moins 1 chunk pertinent dans top-k — 21-retrieval-evals
HNSW — Hierarchical Navigable Small World — 20-rag-architecture
host (MCP) — application embarquant un LLM client MCP — 36-mcp-agent-protocols
hybrid deployment — mix open self-hosted + closed API — 30-open-vs-closed-source · 31-on-prem-vs-cloud
hybrid search — dense + sparse fusionnés — 20-rag-architecture

I

ICL (in-context learning) — apprendre via prompt — 27-ft-vs-icl-vs-rag-vs-distill
idempotency key — hash pour dédup — 17-function-calling-reliability
image-based prompt injection — texte caché dans image qui détourne le modèle — 35-multimodal
InfiniBand (NDR/XDR) — fabric HPC 400/800 Gb/s — 33-on-premise-en-pratique
inference scaling law — qualité scale avec compute test-time — 34-reasoning-models
intermediate fusion — cross-attention multimodal multi-layer — 35-multimodal
in-flight batching — synonyme continuous batching — 10-continuous-batching-paged-attention
inline citations — sources dans le texte — 21-retrieval-evals
input filtering — classifier pour bloquer inputs — 25-safety-engineering
instruction reinforcement — répéter instructions critiques — 25-safety-engineering
instruction tuning — SFT sur diversité d’instructions — 07-post-training-alignment
inter-token latency — synonyme TPOT — 09-prefill-vs-decode
interleaved 1F1B — schedule pipeline parallelism — 06-distributed-training
IPO (Identity Preference Optimization) — variante DPO — 07-post-training-alignment
IVF — Inverted File Index — 20-rag-architecture

J

jailbreak — bypass des safety — 25-safety-engineering · 29-production-failure-modes
JSON mode — output JSON garanti syntaxiquement — 16-structured-outputs
JSON-RPC 2.0 — protocole RPC, base MCP — 36-mcp-agent-protocols
JSON schema — schéma de structure — 16-structured-outputs

K

KL penalty / KL divergence — terme régularisation RLHF — 07-post-training-alignment
KS test — Kolmogorov-Smirnov, test distrib — 23-llm-observability
KTO (Kahneman-Tversky Optimization) — alignment sur signaux unaires — 07-post-training-alignment
KV cache — Keys + Values en mémoire — 08-kv-cache-management
KV cache quantization — KV en INT8/INT4 — 08-kv-cache-management

L

Lakera — provider input filtering — 25-safety-engineering
Lambda Labs — neocloud GPU spécialisé — 33-on-premise-en-pratique
LangGraph — framework orchestration agents — 36-mcp-agent-protocols
Langfuse — observability LLM open-source — 23-llm-observability
LangSmith — observability LangChain — 23-llm-observability
late chunking — chunk après embed du doc complet — 20-rag-architecture
late fusion (multimodal) — modalités fusionnées en fin de pipeline — 35-multimodal
LibriSpeech — benchmark ASR multilingue — 35-multimodal
LiveCodeBench — code benchmark anti-leakage — 34-reasoning-models
liquid cooling — refroidissement liquide obligatoire B200+ — 33-on-premise-en-pratique
Llama 4 — Meta multimodal natif 2025 — 35-multimodal · 30-open-vs-closed-source
Llama Community License — licence Meta gratuite jusqu’à 700M MAU — 30-open-vs-closed-source
Linux Foundation — gouvernance MCP via AAIF — 36-mcp-agent-protocols
latency budget — total time autorisé — 28-tradeoffs
LayerNorm — normalisation par feature — 01-transformer-architecture
length bias — judge favorise plus long — 22-evals
LLM-as-judge — LLM évalue output — 21-retrieval-evals · 22-evals · 32-fine-tuning-en-pratique
LLM.int8 — Dettmers, gestion outliers W8A8 — 12-quantization-deep-dive
lm-evaluation-harness — eval harness EleutherAI (MMLU, HellaSwag, etc.) — 32-fine-tuning-en-pratique
load balancing loss — auxiliary loss pour MoE — 05-mixture-of-experts
lock-in — dépendance fournisseur, coût de switch — 30-open-vs-closed-source
logit distillation — student apprend logits du teacher — 11-speculative-quant-distill
lookahead decoding — self-speculative — 11-speculative-quant-distill
loop budget — max iterations — 18-agent-guardrails
LoRA / QLoRA — adapters bas-rang — 27-ft-vs-icl-vs-rag-vs-distill · 32-fine-tuning-en-pratique
loss masking — loss calculée seulement sur tokens response — 32-fine-tuning-en-pratique
loss scaling — multiplier loss en FP16 contre underflow — 06-distributed-training
lost in the middle — biais attention début/fin — 14-context-engineering
LRU eviction — Least Recently Used — 08-kv-cache-management
LTV/CAC — unit economics — 24-cost-attribution

M

Magistral — Mistral reasoning model (Small Apache 2.0 + Medium) — 34-reasoning-models · 30-open-vs-closed-source
Mamba — architecture SSM alternative au Transformer — 02-position-encodings
managed API — API hébergée par le provider du modèle — 30-open-vs-closed-source
managed cloud — LLM-as-a-service hyperscaler (Bedrock, Azure OpenAI, Vertex AI, La Plateforme) — 31-on-prem-vs-cloud
majority voting @ N — agrégation N samples reasoning — 34-reasoning-models
MATH — benchmark mathématique large — 34-reasoning-models
MathVista — benchmark VLM math + visualisations — 35-multimodal
MCP (Model Context Protocol) — standard tool/agent JSON-RPC — 36-mcp-agent-protocols
MCP gateway — proxy auth devant MCP servers internes — 36-mcp-agent-protocols
MI300X — AMD GPU 192 GB HBM3 — 33-on-premise-en-pratique
MIG (Multi-Instance GPU) — partitionnement GPU Nvidia — 33-on-premise-en-pratique
matryoshka embeddings — embeddings tronquables — 20-rag-architecture
max iterations — synonyme loop budget — 18-agent-guardrails
Medusa — speculative decoding multi-head — 11-speculative-quant-distill
Megatron — pattern tensor parallelism — 06-distributed-training
memory layer — store de faits durables — 14-context-engineering
memory-bound — bottleneck = bande passante — 09-prefill-vs-decode
MFU — Model FLOPs Utilization — 10-continuous-batching-paged-attention
MHA (Multi-Head Attention) — attention multi-heads standard — 01-transformer-architecture
micro-batch — sous-batch en pipeline parallelism — 06-distributed-training
Mistral AI Studio — production platform Mistral (hybrid/dedicated/self-hosted) — 31-on-prem-vs-cloud
Mistral Compute — cloud GPU vertical Mistral, EU — 31-on-prem-vs-cloud · 33-on-premise-en-pratique
mistral-finetune — outillage OSS Mistral pour fine-tuning — 32-fine-tuning-en-pratique
Mistral Forge — plateforme enterprise full pre-train Mistral — 32-fine-tuning-en-pratique · 30-open-vs-closed-source
Mistral Vibe — autonomous code agent Mistral — 32-fine-tuning-en-pratique
MIT license — licence open-source permissive — 30-open-vs-closed-source
mixed precision — combinaison FP32/FP16/BF16/FP8 — 06-distributed-training · 32-fine-tuning-en-pratique
Mixtral — MoE de Mistral, 8x7B / 8x22B — 05-mixture-of-experts
MMMU — Massive Multi-discipline Multimodal Understanding — 35-multimodal
MLA (Multi-head Latent Attention) — cache compressé (DeepSeek) — 01-transformer-architecture
MLP — synonyme FFN — 01-transformer-architecture
MMLU regression — check capacités générales après FT — 32-fine-tuning-en-pratique
model deprecation — version retirée par provider — 30-open-vs-closed-source
model router — routage par requête — 19-model-routing-fallback
MoE (Mixture of Experts) — experts parallèles + router — 05-mixture-of-experts
MQA (Multi-Query Attention) — un seul KV head — 01-transformer-architecture · 08-kv-cache-management
MRR — Mean Reciprocal Rank — 21-retrieval-evals
MTTD/MTTR — Mean Time To Detect/Recover — 29-production-failure-modes
multi-provider — utiliser plusieurs APIs — 19-model-routing-fallback
multilingual tokenization — tokenization équilibrée entre langues — 04-tokenization
mTLS — mutual TLS, auth inter-services — 33-on-premise-en-pratique · 36-mcp-agent-protocols

N

namespace (vector store) — isolation logique — 26-multi-tenant-isolation
NCCL — Nvidia Collective Communications Library — 33-on-premise-en-pratique · 06-distributed-training
NDCG — Normalized Discounted Cumulative Gain — 21-retrieval-evals
neocloud — cloud GPU spécialisé (CoreWeave, Lambda, Crusoe, Nscale) — 33-on-premise-en-pratique
needle in a haystack — test retrieval long context — 14-context-engineering · 02-position-encodings
NIS2 — directive cybersécurité EU — 37-eu-ai-act
NVL72 — GB200 NVL72 rack-scale system — 33-on-premise-en-pratique
NVLink / NVSwitch — Nvidia inter-GPU fabric intra-node — 33-on-premise-en-pratique
NoPE — pas d’encodage de position — 02-position-encodings
NTK-aware scaling — extension RoPE pour long context — 02-position-encodings

O

offloading — KV sur CPU RAM/NVMe — 08-kv-cache-management
on-prem — déploiement datacenter propre — 31-on-prem-vs-cloud
online softmax — softmax incrémental (FlashAttention) — 03-flash-attention
o1 / o3 — OpenAI reasoning models — 34-reasoning-models
OAuth 2.0 / OpenID Connect — auth standards, base MCP RC 2026 — 36-mcp-agent-protocols
OOV (Out-Of-Vocabulary) — token absent du vocab — 04-tokenization
open weights — poids téléchargeables — 30-open-vs-closed-source
OpenTelemetry — standard tracing — 23-llm-observability
OPEX (Operational Expenditure) — coût opérationnel récurrent — 30-open-vs-closed-source · 31-on-prem-vs-cloud · 33-on-premise-en-pratique
ORPO (Odds Ratio Preference Optimization) — SFT + preference en une étape — 07-post-training-alignment
outlier (activation) — valeurs énormes qui cassent la quant — 12-quantization-deep-dive
outlines — lib constrained decoding — 16-structured-outputs
output drift — distribution des outputs change — 23-llm-observability
output filtering — scan avant return — 25-safety-engineering

P

p50/p99 — latency percentiles — 23-llm-observability
PagedAttention — KV en pages, vLLM — 08-kv-cache-management · 10-continuous-batching-paged-attention
patch (ViT) — bloc fixe d’image traité comme token — 35-multimodal
PFC (Priority Flow Control) — lossless Ethernet pour RoCE — 33-on-premise-en-pratique
Phi-4 multimodal — Microsoft small edge multimodal — 35-multimodal
Pixtral — Mistral vision model — 35-multimodal · 30-open-vs-closed-source
Preparedness Framework — OpenAI safety posture — 37-eu-ai-act
pairwise comparison — A vs B en LLM-as-judge — 22-evals
Pareto frontier — courbe tradeoff — 28-tradeoffs
partial failure — tool fait 2/3 actions — 17-function-calling-reliability · 29-production-failure-modes
peft — lib Hugging Face Parameter-Efficient Fine-Tuning — 32-fine-tuning-en-pratique
per-channel/per-group — granularité quant — 12-quantization-deep-dive
permission boundary — limite des actions autorisées — 17-function-calling-reliability · 25-safety-engineering
PII — Personal Identifiable Information — 25-safety-engineering
pipeline parallelism (PP) — layers split entre GPUs — 06-distributed-training
Plan-and-Execute — pattern d’agent — 13-harness-engineering
policy — modèle entraîné en RL — 07-post-training-alignment
position interpolation (PI) — RoPE scaling par interpolation — 02-position-encodings
position bias — judge favorise premier — 22-evals
positional encoding — encodage de position — 02-position-encodings
post-norm — normalisation après sublayer — 01-transformer-architecture
post-training — phase après pre-training — 07-post-training-alignment
PPO (Proximal Policy Optimization) — RL algorithm pour RLHF — 07-post-training-alignment
PQ — Product Quantization — 20-rag-architecture
pre-norm — normalisation avant sublayer — 01-transformer-architecture
pre-training — phase next-token prediction — 07-post-training-alignment
precision@k — % top-k pertinents — 21-retrieval-evals
prefill — phase initiale compute-bound — 09-prefill-vs-decode
prefix cache — synonyme prompt cache — 15-prompt-vs-semantic-caching
prefix sharing — pages KV partagées — 08-kv-cache-management · 10-continuous-batching-paged-attention
prefix tuning — apprendre préfixe d’embeddings injecté à chaque couche — 32-fine-tuning-en-pratique
prohibited practices (AI Act) — usages interdits (social scoring etc.) — 37-eu-ai-act
preference tuning — alignment via préférences — 07-post-training-alignment
pricing risk — risque de changement tarifaire unilatéral — 30-open-vs-closed-source
principle of least privilege — perm minimale — 25-safety-engineering
prompt caching — cache du KV prefix — 15-prompt-vs-semantic-caching
prompt drift — perf dégrade silencieusement — 29-production-failure-modes
prompt injection — input qui détourne le modèle — 25-safety-engineering
Protect AI — provider safety — 25-safety-engineering
provider API — endpoint cloud du fournisseur du modèle — 31-on-prem-vs-cloud
provisioned throughput — capacité dédiée, tarif fixe — 30-open-vs-closed-source · 31-on-prem-vs-cloud
P-tuning / prompt tuning — embeddings soft prependés au prompt — 32-fine-tuning-en-pratique
PTQ (Post-Training Quantization) — 12-quantization-deep-dive
PUE (Power Usage Effectiveness) — efficacité énergétique datacenter — 33-on-premise-en-pratique

Q

QAT (Quantization-Aware Training) — 12-quantization-deep-dive
quality bar — seuil qualité — 28-tradeoffs
quantization — réduire bits de précision — 12-quantization-deep-dive
quota — limite per tenant — 19-model-routing-fallback
QwQ — Alibaba Qwen reasoning model 32B Apache 2.0 — 34-reasoning-models
Qwen 2.5 / Qwen 3 — Alibaba open-weight frontier — 30-open-vs-closed-source
Qwen-VL — Alibaba vision-language model — 35-multimodal

R

radix tree — structure pour prefix sharing — 08-kv-cache-management
Ragas — framework eval RAG — 21-retrieval-evals
rail-optimized — fabric un rail par GPU pour training — 33-on-premise-en-pratique
rank (LoRA) — dimension des matrices adapter (r=4-64 typique) — 32-fine-tuning-en-pratique
R1 / R1-Zero — DeepSeek reasoning models — 34-reasoning-models
RDMA — Remote Direct Memory Access — 33-on-premise-en-pratique
Realtime API — OpenAI voice agent low-latency — 35-multimodal
reasoning model — modèle qui produit un long CoT avant réponse — 34-reasoning-models
red teaming — adversarial testing structuré — 22-evals · 37-eu-ai-act
Responsible Scaling Policy (Anthropic) — safety posture publique — 37-eu-ai-act
rate limit (429) — limite requêtes — 19-model-routing-fallback
RCA — Root Cause Analysis — 29-production-failure-modes
ReAct — pattern Think-Act-Observe — 13-harness-engineering
recall@k — % chunks pertinents dans top-k — 21-retrieval-evals
recomputation — recalcul au backward (FlashAttention) — 03-flash-attention
red team — adversarial testing humain — 22-evals
reference policy — policy SFT de référence (RLHF/DPO) — 07-post-training-alignment
reflection — self-critique avant action — 18-agent-guardrails
regression test — protection contre régressions — 22-evals
re-entrant call — tool qui s’appelle lui-même — 17-function-calling-reliability
repair loop — retry après schema fail — 16-structured-outputs
reranking — rerank top-100 → top-10 — 20-rag-architecture
residual stream — flux additif Transformer — 01-transformer-architecture
reward hacking — gaming du reward model — 07-post-training-alignment
reward model — prédicteur de préférence RLHF — 07-post-training-alignment
ring attention — context parallelism via anneau — 06-distributed-training
RLHF (Reinforcement Learning from Human Feedback) — 07-post-training-alignment
RMSNorm — normalisation par RMS — 01-transformer-architecture
RoCE v2 — RDMA over Converged Ethernet — 33-on-premise-en-pratique
RoPE (Rotary Position Embedding) — encodage relatif par rotation — 02-position-encodings
router (MoE) — sélecteur des experts — 05-mixture-of-experts
row-level security (RLS) — DB isolation — 26-multi-tenant-isolation
RRF — Reciprocal Rank Fusion — 20-rag-architecture
runaway agent — boucle infinie — 29-production-failure-modes
RWKV — architecture RNN/Transformer hybride — 02-position-encodings

S

salient weights — weights qui multiplient outliers — 12-quantization-deep-dive
sampling (MCP) — server demande génération au host LLM — 36-mcp-agent-protocols
sandboxing — exec isolée — 18-agent-guardrails
SecNumCloud — qualification cloud souverain ANSSI — 33-on-premise-en-pratique
serious incident report (AI Act) — obligation provider GPAI — 37-eu-ai-act
scaled dot-product attention — formule canonique d’attention — 01-transformer-architecture · 03-flash-attention
schema pass rate — % outputs valides — 16-structured-outputs
self-attention — attention sur la même séquence — 01-transformer-architecture
self-critique — synonyme reflection — 18-agent-guardrails
self-hosted — auto-hébergement des modèles — 30-open-vs-closed-source · 31-on-prem-vs-cloud
self-managed cloud — DIY serving sur cloud public (vLLM sur EC2/GKE) — 31-on-prem-vs-cloud
self-preference (bias) — judge préfère même famille — 22-evals
semantic cache — cache par similarité embedding — 15-prompt-vs-semantic-caching
SentencePiece — librairie tokenization — 04-tokenization
sequence parallelism — synonyme context parallelism — 06-distributed-training
SFT (Supervised Fine-Tuning) — fine-tuning sur (instruction, response) — 07-post-training-alignment
shadow eval — modèle FT évalué en parallèle de la prod sur sample — 32-fine-tuning-en-pratique
shared expert — expert toujours activé (MoE) — 05-mixture-of-experts
sliding window (attention) — fenêtre bornée sur K tokens — 02-position-encodings · 08-kv-cache-management
sliding window (context) — ne garder que N derniers tours — 14-context-engineering
Slurm — orchestrateur HPC batch — 06-distributed-training · 33-on-premise-en-pratique
SmoothQuant — gestion outliers W8A8 — 12-quantization-deep-dive
softmax — normalisation probabiliste — 01-transformer-architecture
SOC 2 — audit US (Type I/II) — 33-on-premise-en-pratique
sovereign AI — souveraineté complète de la chaîne IA — 30-open-vs-closed-source · 31-on-prem-vs-cloud
sovereign cloud — cloud public sous juridiction locale (OVH, Scaleway, T-Systems) — 31-on-prem-vs-cloud
span — sous-op dans une trace — 23-llm-observability
sparse activation — peu de paramètres actifs (MoE) — 05-mixture-of-experts
sparse retrieval — BM25, SPLADE — 20-rag-architecture
speculative decoding — draft + verify lossless — 11-speculative-quant-distill
SPLADE — sparse learned retrieval — 20-rag-architecture
SRAM — mémoire on-chip GPU — 03-flash-attention
SSM (State Space Model) — base architecture Mamba — 02-position-encodings
state compaction — résumer historique — 13-harness-engineering
static batching — batch fixe (anti-pattern) — 10-continuous-batching-paged-attention
stdio transport (MCP) — subprocess local communication — 36-mcp-agent-protocols
Streamable HTTP (MCP) — RC 2026 transport stateless — 36-mcp-agent-protocols
stuck detection — hash actions récentes — 18-agent-guardrails
structured context — XML tags, sections — 14-context-engineering
structured outputs — JSON schema garanti — 16-structured-outputs
subword — unité de tokenization — 04-tokenization
supply chain attack — modèle téléchargé avec poids modifiés malveillamment — 30-open-vs-closed-source
systemic risk (GPAI) — présomption AI Act > 10²⁵ FLOPs — 37-eu-ai-act
System 2 — pensée délibérée, analogie reasoning models — 34-reasoning-models
SwiGLU — activation gated (Llama, Mistral) — 01-transformer-architecture
symmetric/asymmetric (quant) — schéma de quantization — 12-quantization-deep-dive

T

tail latency — p95/p99 — 19-model-routing-fallback · 23-llm-observability
target model — gros modèle qui valide — 11-speculative-quant-distill
target modules (LoRA) — projections où ajouter les adapters (q_proj, v_proj…) — 32-fine-tuning-en-pratique
TDM Reservation — opt-out copyright (Text-and-Data-Mining) — 37-eu-ai-act
temperature — sampling param — 23-llm-observability
test-time compute scaling — qualité monte avec compute par requête — 34-reasoning-models
tenant_id — clé d’isolation — 26-multi-tenant-isolation
tenant tier — niveau de service — 19-model-routing-fallback · 24-cost-attribution
tensor parallelism (TP) — split horizontal de matrices — 06-distributed-training · 31-on-prem-vs-cloud · 33-on-premise-en-pratique
termination condition — fin de l’agent loop — 18-agent-guardrails
thinking mode — mode reasoning switchable (Qwen3) — 34-reasoning-models
tools (MCP) — fonctions invocables exposées par server — 36-mcp-agent-protocols
tool spoofing — server MCP qui se fait passer pour un autre — 36-mcp-agent-protocols
torchtune — recipe library Meta FT en PyTorch — 32-fine-tuning-en-pratique
training data summary (AI Act) — résumé public training data — 37-eu-ai-act
TTS (Text-to-Speech) — génération audio depuis texte — 35-multimodal
Tiktoken — tokenizer OpenAI en Rust — 04-tokenization
tiling — découpage en blocs (FlashAttention) — 03-flash-attention
token — unité de manipulation du modèle — 04-tokenization
token budget — max tokens session — 18-agent-guardrails
tokenizer — encode/decode texte ↔ tokens — 04-tokenization
tool budget — max calls par tool — 18-agent-guardrails
tool contract — schema + description — 17-function-calling-reliability
tool registry — catalogue des tools — 13-harness-engineering
top-k gating / top-k routing — sélection MoE — 05-mixture-of-experts
TPOT — Time Per Output Token — 09-prefill-vs-decode
trace — request end-to-end — 23-llm-observability
Tree-of-Thought — pattern branches parallèles — 13-harness-engineering
trl — lib Hugging Face TRL pour RLHF/DPO/PPO — 32-fine-tuning-en-pratique
trust boundary — niveau de trust des données — 25-safety-engineering
TTFT — Time To First Token — 09-prefill-vs-decode
TTL — Time To Live (cache) — 15-prompt-vs-semantic-caching

U

Unigram LM — algorithme tokenization probabiliste — 04-tokenization
unit economics — cost/LTV — 24-cost-attribution
unified multimodal — modèle natif texte + image + audio — 35-multimodal
unsloth — framework FT optimisé single-GPU — 32-fine-tuning-en-pratique
untrusted input — contenu user/tool à filtrer — 25-safety-engineering

V

vendor lock-in — dépendance fournisseur — 30-open-vs-closed-source
ViT (Vision Transformer) — encoder image en patches — 35-multimodal
vLLM — serving engine canonique — 10-continuous-batching-paged-attention · 31-on-prem-vs-cloud · 33-on-premise-en-pratique
VLM (Vision-Language Model) — modèle multimodal image + texte — 35-multimodal
vocabulary — ensemble des tokens — 04-tokenization
voice cloning — synthèse voix imitant locuteur — 35-multimodal
Voxtral — Mistral audio model (Small + Mini Apache 2.0) — 35-multimodal
Voxtral TTS — Mistral text-to-speech (mars 2026) — 35-multimodal
VRAM — GPU memory — 08-kv-cache-management · 33-on-premise-en-pratique

W

W8A8 — Weight 8-bit, Activation 8-bit — 12-quantization-deep-dive
W4A16 — Weight 4-bit, Activation 16-bit — 12-quantization-deep-dive
wallclock budget — max temps session — 18-agent-guardrails
warmup ratio — % steps en warmup du learning rate — 32-fine-tuning-en-pratique
Whisper (v3) — OpenAI ASR multilingue OSS — 35-multimodal
WebRTC — streaming bidirectionnel voice agents — 35-multimodal
weight-only quantization — quant weights seuls — 12-quantization-deep-dive
WordPiece — algorithme tokenization BERT — 04-tokenization

X

XGrammar — lib constrained decoding rapide — 16-structured-outputs

Y

YaRN — RoPE scaling avec attention temperature — 02-position-encodings

Z

ZeRO (1/2/3) — sharding strategies — 06-distributed-training
zero-shot — pas d’exemples dans le prompt — 27-ft-vs-icl-vs-rag-vs-distill

Frontier LLM Systems

Explorateur

Glossaire

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

P

Q

R

S

T

U

V

W

X

Y

Z

Vue Graphique

Table des Matières

Liens retour

description	Glossaire alphabétique des termes anglais canoniques, avec lien vers la fiche source.
tags	reference
aliases	vocab, glossaire