Format
Tous les termes anglais canoniques, classés par ordre alphabétique. Format :
terme— sens court — fiche-source
A
acceptance rate— % de tokens acceptés du draft model en speculative decoding — 11-speculative-quant-distilladapter(LoRA) — modules bas-rang ajoutés sur base frozen — 27-ft-vs-icl-vs-rag-vs-distill · 32-fine-tuning-en-pratiqueadapter merging— fusion LoRA dans base weights pour serving — 32-fine-tuning-en-pratiqueadversarial image— image conçue pour induire classification erronée — 35-multimodaladversarial test— case designed pour casser — 22-evalsAgentic AI Foundation(AAIF) — Linux Foundation entity governing MCP — 36-mcp-agent-protocolsaha moment(RL) — moment où le modèle change de stratégie en raisonnement — 34-reasoning-modelsair-gap— cluster sans accès Internet sortant — 33-on-premise-en-pratiqueAIME— American Invitational Mathematics Examination, benchmark reasoning — 34-reasoning-modelsAI Act(EU) — Règlement (UE) 2024/1689 sur l’IA — 37-eu-ai-actAI Liability Directive— régime responsabilité civile IA (EU, en discussion) — 37-eu-ai-actAI Office(EU) — autorité européenne gouvernance IA — 37-eu-ai-actALM(Audio-Language Model) — modèle multimodal audio + texte — 35-multimodalANSSI SecNumCloud— qualification cloud souverain français — 33-on-premise-en-pratiqueArticle 51(AI Act) — seuil GPAI risque systémique — 37-eu-ai-actARC-AGI— Abstraction and Reasoning Corpus, benchmark frontier — 34-reasoning-modelsagent loop— event loop d’orchestration {model → tool → observation} — 13-harness-engineering · 18-agent-guardrailsAI feedback— feedback généré par un modèle (Constitutional AI) — 07-post-training-alignmentALiBi— position encoding via biais linéaire — 02-position-encodingsall-reduce— communication collective de sommation — 06-distributed-trainingall-to-all— communication MoE expert parallelism — 05-mixture-of-experts · 06-distributed-trainingalpha(LoRA) — scaling factor des matrices adapter — 32-fine-tuning-en-pratiqueAMP(Automatic Mixed Precision) — API PyTorch mixed precision — 06-distributed-traininganswer relevancy— la réponse adresse-t-elle la question — 21-retrieval-evalsApache 2.0— licence open-source permissive (Mistral, Qwen, DeepSeek) — 30-open-vs-closed-sourceapproval gate— confirmation user requise avant action critique — 18-agent-guardrailsarithmetic intensity— ratio compute / memory access — 09-prefill-vs-decodeattention dilution— perte d’attention sur long context — 14-context-engineeringattribution— citation explicite des sources — 21-retrieval-evalsauxiliary-loss-free balancing— load balancing MoE sans loss auxiliaire (DeepSeek-V3) — 05-mixture-of-expertsAWQ— Activation-aware Weight Quantization — 12-quantization-deep-diveaxolotl— framework recipe-driven fine-tuning — 32-fine-tuning-en-pratique
B
B200— Nvidia Blackwell GPU, 192 GB HBM3e, 1000W — 33-on-premise-en-pratiqueBAA(Business Associate Agreement) — contrat HIPAA santé US — 31-on-prem-vs-cloudbest-of-N— sample N réponses, sélectionne la meilleure — 34-reasoning-modelsBradley-Terry— modèle de préférence en RLHF — 07-post-training-alignmentbreak-even— seuil économique cloud → self-hosted — 30-open-vs-closed-source · 31-on-prem-vs-cloudBright Cluster Manager— orchestrateur HPC commercial — 33-on-premise-en-pratiqueBF16— brain float 16, range FP32 / précision réduite — 12-quantization-deep-dive · 06-distributed-trainingbi-encoder— embedding query et chunk séparément — 20-rag-architectureblock size— taille des pages KV — 08-kv-cache-managementBM25— sparse retrieval TF-IDF — 20-rag-architectureBNB(bitsandbytes) — lib quantization — 12-quantization-deep-diveBOS(Beginning Of Sequence) — token de début — 04-tokenizationBPE(Byte-Pair Encoding) — algorithme de tokenization — 04-tokenizationbubble— gap idle en pipeline parallelism — 06-distributed-trainingbudget enforcement— kill switch sur dépassement — 18-agent-guardrails · 24-cost-attributionbyte-level BPE— BPE sur les bytes — 04-tokenizationbyte-level fallback— decomposition en bytes si OOV — 04-tokenization
C
cache breakpoint— marqueur fin de prefix cachable — 15-prompt-vs-semantic-cachingcache hit ratio— % requêtes servies du cache — 15-prompt-vs-semantic-cachingcache poisoning— cache contaminé cross-user — 29-production-failure-modescalibration(alignment) — confiance reflète l’incertitude — 07-post-training-alignmentcalibration set— dataset pour calibrer quantization — 12-quantization-deep-divecapacity factor— multiplicateur de l’expert capacity (MoE) — 05-mixture-of-expertscapability frontier— niveau de capability max actuel — 30-open-vs-closed-sourceCAPEX(Capital Expenditure) — investissement initial (GPU, datacenter) — 30-open-vs-closed-source · 31-on-prem-vs-cloudCDU(Coolant Distribution Unit) — distribution liquide refroidissement — 33-on-premise-en-pratiqueCE marking— marquage conformité produit EU — 37-eu-ai-actchain-of-thought(CoT) — raisonnement intermédiaire avant réponse — 34-reasoning-modelsChartQA— benchmark VLM sur charts — 35-multimodalClaude Code— agent terminal-native Anthropic, MCP-deep — 36-mcp-agent-protocolsClos topology— folded tree, fabric datacenter — 33-on-premise-en-pratiquecold-start SFT— SFT initial avant RL reasoning — 34-reasoning-modelsComputer Use— protocole Anthropic agent contrôlant UI — 36-mcp-agent-protocols · 35-multimodalConstitutional AI(Anthropic posture) — alignment basé sur constitution — 07-post-training-alignment · 37-eu-ai-actContinue.dev— IDE coding agent OSS, client MCP — 36-mcp-agent-protocolscopyright policy(AI Act) — obligation provider GPAI — 37-eu-ai-actCoreWeave— neocloud GPU spécialisé — 33-on-premise-en-pratiquecross-attention(multimodal) — attention entre modalités — 35-multimodalcardinality— # valeurs distinctes d’un tag — 24-cost-attributioncascade routing— try small puis fallback large — 19-model-routing-fallbackcatastrophic forgetting— fine-tune efface skills initiaux — 27-ft-vs-icl-vs-rag-vs-distill · 32-fine-tuning-en-pratiquecausal mask— masque pour decoder-only — 01-transformer-architecturechunked prefill— prefill split en morceaux — 09-prefill-vs-decode · 10-continuous-batching-paged-attentionchunking— découpage doc en chunks — 20-rag-architecturecircuit breaker— écarter provider qui échoue — 19-model-routing-fallbackcitation accuracy— citation pointe au bon contenu — 21-retrieval-evalsclassifier-based routing— classifie query → route — 19-model-routing-fallbackclosed source— modèle fermé, accès par API uniquement — 30-open-vs-closed-sourcecolocation— datacenter loué (rack/cage) — 31-on-prem-vs-cloudcommercial license— usage payant, contrat — 30-open-vs-closed-sourcecompaction— compresser tours anciens — 14-context-engineeringcompensating action— annule l’effet d’une partial failure — 17-function-calling-reliability · 29-production-failure-modescompute-bound— bottleneck = TFLOPS — 09-prefill-vs-decodeconcept drift— distribution des inputs change — 23-llm-observabilityconfabulation— invention de faits sous pression — 07-post-training-alignmentconstrained decoding— sampler limité par grammaire — 16-structured-outputsConstitutional AI— alignment via constitution — 07-post-training-alignmentcontext engineering— sélectionner ce qui rentre — 14-context-engineeringcosine schedule— décroissance lr en cosinus — 32-fine-tuning-en-pratiquecontext parallelism— split de la dimension séquence — 06-distributed-trainingcontext relevancy— chunks pertinents pour la question — 21-retrieval-evalscontextualized chunks— chunk préfixé de son origine — 20-rag-architecturecontinuous batching— scheduling iteration-level — 10-continuous-batching-paged-attentioncosine similarity— métrique embedding — 20-rag-architecturecost attribution— décomposition du coût — 24-cost-attributioncost budget— max $ par session — 18-agent-guardrails · 24-cost-attributioncross-attention— attention encoder → decoder — 01-transformer-architecturecross-encoder— query et chunk dans un transformer — 20-rag-architecturecross-tenant leak— fuite entre tenants — 26-multi-tenant-isolationcross-user contamination— fuite entre users — 26-multi-tenant-isolation
D
data exfiltration— leak data via prompt injection — 25-safety-engineeringdata leakage— PII exposé indûment — 25-safety-engineeringdata parallelism(DP) — duplication du modèle, split des données — 06-distributed-trainingdata residency— où la data réside physiquement — 30-open-vs-closed-source · 31-on-prem-vs-clouddata sovereignty— juridiction sur la data — 31-on-prem-vs-cloudDCGM— Nvidia Data Center GPU Manager — 33-on-premise-en-pratiqueDCQCN— congestion control RoCE — 33-on-premise-en-pratiqueDDP(Distributed Data Parallel) — implémentation PyTorch de DP — 06-distributed-trainingdecode— phase autoregressive memory-bound — 09-prefill-vs-decodeDeepSeek R1— premier OSS reasoning frontier, MIT — 34-reasoning-models · 30-open-vs-closed-sourceDeepSeek V3— base model MoE 671B/37B actifs — 30-open-vs-closed-source · 33-on-premise-en-pratiqueDevstral— modèle Mistral agentic coding — 30-open-vs-closed-source · 35-multimodalDGX— Nvidia AI workstation/server brand — 33-on-premise-en-pratiquedirect-to-chipcooling (D2C) — refroidissement liquide GPU — 33-on-premise-en-pratiqueDocVQA— benchmark VLM sur documents — 35-multimodalDORA— Digital Operational Resilience Act (finance EU) — 37-eu-ai-actDSA— Digital Services Act (EU) — 37-eu-ai-actdegraded mode— service fonctionne partiellement — 19-model-routing-fallbackdense retrieval— search par embeddings — 20-rag-architecturedisaggregated serving— prefill et decode sur GPUs séparés — 09-prefill-vs-decodedisaster recovery— plan de reprise après panne — 31-on-prem-vs-clouddistillation— student imite teacher — 11-speculative-quant-distillDoRA— Weight-Decomposed LoRA, variante supérieure — 32-fine-tuning-en-pratiqueDPA(Data Processing Agreement) — accord RGPD entre data controller et processor — 31-on-prem-vs-cloudDPO(Direct Preference Optimization) — alignment sans reward model — 07-post-training-alignmentdraft model— petit modèle pour speculative — 11-speculative-quant-distilldrift detection— repérer changement distribution — 23-llm-observability
E
EAGLE— speculative decoding via head supplémentaire — 11-speculative-quant-distillembedding drift— distance entre embeddings sur périodes — 23-llm-observabilityembeddings— vecteurs sémantiques — 20-rag-architectureEOS(End Of Sequence) — token de fin — 04-tokenizationeval harness— framework qui run les evals — 22-evalsevent loop— orchestration agent — 13-harness-engineeringeviction— virer du cache — 08-kv-cache-managementexpert capacity— limite tokens par expert MoE — 05-mixture-of-expertsexpert parallelism— experts MoE distribués sur GPUs — 05-mixture-of-experts · 06-distributed-training
F
faithfulness— réponse supportée par le contexte — 21-retrieval-evalsfallback chain— séquence de fallbacks — 16-structured-outputs · 19-model-routing-fallbackearly fusion— vision tokens injectés dans embedding LLM — 35-multimodalextended thinking— mode reasoning transparent Claude — 34-reasoning-modelsfallback cross-level— backup d’un niveau déploiement à un autre (self-hosted → API) — 31-on-prem-vs-cloudFedRAMP— certification cloud gouvernement US — 33-on-premise-en-pratiquefew-shot— exemples dans le prompt — 27-ft-vs-icl-vs-rag-vs-distillFFN(Feed-Forward Network) — sous-bloc MLP du Transformer — 01-transformer-architecturefine-grained experts— petits experts nombreux (DeepSeek) — 05-mixture-of-expertsfine-tuning— update weights — 27-ft-vs-icl-vs-rag-vs-distill · 32-fine-tuning-en-pratiquefinish_reason— pourquoi le decode s’arrête — 23-llm-observabilityfinite-state machine— base de constrained decoding — 16-structured-outputsFlashAttention— attention exact avec tiling — 03-flash-attentionFlashDecoding— variante FlashAttention pour decode — 03-flash-attentionFP8(E4M3, E5M2) — format quantization moderne — 12-quantization-deep-dive · 06-distributed-trainingFP16— float 16 standard — 12-quantization-deep-dive · 06-distributed-trainingfragmentation(VRAM) — gaspillage d’allocation — 08-kv-cache-managementfreshness— fraîcheur des chunks — 20-rag-architectureFrontierMath— benchmark math research-level — 34-reasoning-modelsFrontier Safety Framework— Google DeepMind safety posture — 37-eu-ai-actFSDP(Fully Sharded Data Parallel) — équivalent PyTorch de ZeRO-3 — 06-distributed-trainingfull fine-tuning— tous params trainable, opposé de LoRA — 32-fine-tuning-en-pratiquefunction calling— modèle choisit tool + args — 17-function-calling-reliability · 36-mcp-agent-protocols
G
GB200 NVL72— Nvidia rack-scale 72 B200 + 36 Grace, 120-130 kW — 33-on-premise-en-pratiqueGB300— Nvidia Blackwell Ultra rack-scale — 33-on-premise-en-pratiqueGDPR/RGPD— règlement européen protection des données — 31-on-prem-vs-cloud · 37-eu-ai-actGemma— Google open-weight model family — 30-open-vs-closed-sourceGemini 2— Google closed multimodal frontier — 30-open-vs-closed-source · 35-multimodalGenkit(Google) — framework AI agents — 36-mcp-agent-protocolsGELU— activation Gaussian Error Linear Unit — 01-transformer-architecturegen_ai semantic conventions— schema OpenTelemetry pour LLM — 23-llm-observabilityGGUF— format fichier llama.cpp — 12-quantization-deep-divegolden set— dataset référence pour evals — 22-evalsgoodput— tokens utiles dans SLA — 10-continuous-batching-paged-attentionGPipe— schedule pipeline parallelism — 06-distributed-trainingGPTQ— Generalized Post-Training Quantization — 12-quantization-deep-diveGPU operator— Kubernetes operator pour GPU scheduling — 31-on-prem-vs-cloud · 33-on-premise-en-pratiqueGPUDirect RDMA— bypass CPU pour transferts GPU↔NIC — 33-on-premise-en-pratiqueGPUDirect Storage— bypass CPU pour GPU↔NVMe — 33-on-premise-en-pratiqueGPAI(General-Purpose AI) — classe de modèles AI Act — 37-eu-ai-actGPQA— graduate-level science benchmark — 34-reasoning-modelsGQA(Grouped Query Attention) — partage K/V entre groupes de heads — 01-transformer-architecture · 08-kv-cache-managementGRPO(Group Relative Policy Optimization) — RL algorithm DeepSeek — 34-reasoning-modelsGPT-4o— OpenAI multimodal natif unifié — 35-multimodal · 30-open-vs-closed-sourcegraceful degradation— fail gracefully — 16-structured-outputs · 19-model-routing-fallbackgradient accumulation— accumule grad avant update pour batch effectif — 32-fine-tuning-en-pratiquegrammar-constrained sampling— sampling avec grammaire — 16-structured-outputsgrounding— chaque claim trace à une source — 21-retrieval-evalsguided decoding— synonyme constrained decoding — 16-structured-outputs
H
hallucinated tool call— modèle invente un tool — 29-production-failure-modeshallucination— invention factuelle — 07-post-training-alignmenthard limit— budget non-négociable — 18-agent-guardrailsharness— système autour du modèle — 13-harness-engineeringH100/H200— Nvidia Hopper GPU SXM 80/141 GB — 33-on-premise-en-pratiqueHBM— High Bandwidth Memory (VRAM GPU) — 08-kv-cache-management · 03-flash-attentionHDS— Hébergeur de Données de Santé (France) — 31-on-prem-vs-cloud · 33-on-premise-en-pratiquehedging— lancer 2 providers en parallèle — 19-model-routing-fallbackheld-out set— % du dataset gardé hors training pour éval — 32-fine-tuning-en-pratiqueHGX— Nvidia 8-GPU baseboard reference (H100/H200/B200) — 33-on-premise-en-pratiqueHIPAA— règlement santé US — 31-on-prem-vs-cloud · 33-on-premise-en-pratiquehigh-risk system(AI Act) — usage classé risque élevé — 37-eu-ai-acthit rate— au moins 1 chunk pertinent dans top-k — 21-retrieval-evalsHNSW— Hierarchical Navigable Small World — 20-rag-architecturehost(MCP) — application embarquant un LLM client MCP — 36-mcp-agent-protocolshybrid deployment— mix open self-hosted + closed API — 30-open-vs-closed-source · 31-on-prem-vs-cloudhybrid search— dense + sparse fusionnés — 20-rag-architecture
I
ICL(in-context learning) — apprendre via prompt — 27-ft-vs-icl-vs-rag-vs-distillidempotency key— hash pour dédup — 17-function-calling-reliabilityimage-based prompt injection— texte caché dans image qui détourne le modèle — 35-multimodalInfiniBand(NDR/XDR) — fabric HPC 400/800 Gb/s — 33-on-premise-en-pratiqueinference scaling law— qualité scale avec compute test-time — 34-reasoning-modelsintermediate fusion— cross-attention multimodal multi-layer — 35-multimodalin-flight batching— synonyme continuous batching — 10-continuous-batching-paged-attentioninline citations— sources dans le texte — 21-retrieval-evalsinput filtering— classifier pour bloquer inputs — 25-safety-engineeringinstruction reinforcement— répéter instructions critiques — 25-safety-engineeringinstruction tuning— SFT sur diversité d’instructions — 07-post-training-alignmentinter-token latency— synonyme TPOT — 09-prefill-vs-decodeinterleaved 1F1B— schedule pipeline parallelism — 06-distributed-trainingIPO(Identity Preference Optimization) — variante DPO — 07-post-training-alignmentIVF— Inverted File Index — 20-rag-architecture
J
jailbreak— bypass des safety — 25-safety-engineering · 29-production-failure-modesJSON mode— output JSON garanti syntaxiquement — 16-structured-outputsJSON-RPC 2.0— protocole RPC, base MCP — 36-mcp-agent-protocolsJSON schema— schéma de structure — 16-structured-outputs
K
KL penalty/KL divergence— terme régularisation RLHF — 07-post-training-alignmentKS test— Kolmogorov-Smirnov, test distrib — 23-llm-observabilityKTO(Kahneman-Tversky Optimization) — alignment sur signaux unaires — 07-post-training-alignmentKV cache— Keys + Values en mémoire — 08-kv-cache-managementKV cache quantization— KV en INT8/INT4 — 08-kv-cache-management
L
Lakera— provider input filtering — 25-safety-engineeringLambda Labs— neocloud GPU spécialisé — 33-on-premise-en-pratiqueLangGraph— framework orchestration agents — 36-mcp-agent-protocolsLangfuse— observability LLM open-source — 23-llm-observabilityLangSmith— observability LangChain — 23-llm-observabilitylate chunking— chunk après embed du doc complet — 20-rag-architecturelate fusion(multimodal) — modalités fusionnées en fin de pipeline — 35-multimodalLibriSpeech— benchmark ASR multilingue — 35-multimodalLiveCodeBench— code benchmark anti-leakage — 34-reasoning-modelsliquid cooling— refroidissement liquide obligatoire B200+ — 33-on-premise-en-pratiqueLlama 4— Meta multimodal natif 2025 — 35-multimodal · 30-open-vs-closed-sourceLlama Community License— licence Meta gratuite jusqu’à 700M MAU — 30-open-vs-closed-sourceLinux Foundation— gouvernance MCP via AAIF — 36-mcp-agent-protocolslatency budget— total time autorisé — 28-tradeoffsLayerNorm— normalisation par feature — 01-transformer-architecturelength bias— judge favorise plus long — 22-evalsLLM-as-judge— LLM évalue output — 21-retrieval-evals · 22-evals · 32-fine-tuning-en-pratiqueLLM.int8— Dettmers, gestion outliers W8A8 — 12-quantization-deep-divelm-evaluation-harness— eval harness EleutherAI (MMLU, HellaSwag, etc.) — 32-fine-tuning-en-pratiqueload balancing loss— auxiliary loss pour MoE — 05-mixture-of-expertslock-in— dépendance fournisseur, coût de switch — 30-open-vs-closed-sourcelogit distillation— student apprend logits du teacher — 11-speculative-quant-distilllookahead decoding— self-speculative — 11-speculative-quant-distillloop budget— max iterations — 18-agent-guardrailsLoRA/QLoRA— adapters bas-rang — 27-ft-vs-icl-vs-rag-vs-distill · 32-fine-tuning-en-pratiqueloss masking— loss calculée seulement sur tokens response — 32-fine-tuning-en-pratiqueloss scaling— multiplier loss en FP16 contre underflow — 06-distributed-traininglost in the middle— biais attention début/fin — 14-context-engineeringLRU eviction— Least Recently Used — 08-kv-cache-managementLTV/CAC— unit economics — 24-cost-attribution
M
Magistral— Mistral reasoning model (Small Apache 2.0 + Medium) — 34-reasoning-models · 30-open-vs-closed-sourceMamba— architecture SSM alternative au Transformer — 02-position-encodingsmanaged API— API hébergée par le provider du modèle — 30-open-vs-closed-sourcemanaged cloud— LLM-as-a-service hyperscaler (Bedrock, Azure OpenAI, Vertex AI, La Plateforme) — 31-on-prem-vs-cloudmajority voting @ N— agrégation N samples reasoning — 34-reasoning-modelsMATH— benchmark mathématique large — 34-reasoning-modelsMathVista— benchmark VLM math + visualisations — 35-multimodalMCP(Model Context Protocol) — standard tool/agent JSON-RPC — 36-mcp-agent-protocolsMCP gateway— proxy auth devant MCP servers internes — 36-mcp-agent-protocolsMI300X— AMD GPU 192 GB HBM3 — 33-on-premise-en-pratiqueMIG(Multi-Instance GPU) — partitionnement GPU Nvidia — 33-on-premise-en-pratiquematryoshka embeddings— embeddings tronquables — 20-rag-architecturemax iterations— synonyme loop budget — 18-agent-guardrailsMedusa— speculative decoding multi-head — 11-speculative-quant-distillMegatron— pattern tensor parallelism — 06-distributed-trainingmemory layer— store de faits durables — 14-context-engineeringmemory-bound— bottleneck = bande passante — 09-prefill-vs-decodeMFU— Model FLOPs Utilization — 10-continuous-batching-paged-attentionMHA(Multi-Head Attention) — attention multi-heads standard — 01-transformer-architecturemicro-batch— sous-batch en pipeline parallelism — 06-distributed-trainingMistral AI Studio— production platform Mistral (hybrid/dedicated/self-hosted) — 31-on-prem-vs-cloudMistral Compute— cloud GPU vertical Mistral, EU — 31-on-prem-vs-cloud · 33-on-premise-en-pratiquemistral-finetune— outillage OSS Mistral pour fine-tuning — 32-fine-tuning-en-pratiqueMistral Forge— plateforme enterprise full pre-train Mistral — 32-fine-tuning-en-pratique · 30-open-vs-closed-sourceMistral Vibe— autonomous code agent Mistral — 32-fine-tuning-en-pratiqueMIT license— licence open-source permissive — 30-open-vs-closed-sourcemixed precision— combinaison FP32/FP16/BF16/FP8 — 06-distributed-training · 32-fine-tuning-en-pratiqueMixtral— MoE de Mistral, 8x7B / 8x22B — 05-mixture-of-expertsMMMU— Massive Multi-discipline Multimodal Understanding — 35-multimodalMLA(Multi-head Latent Attention) — cache compressé (DeepSeek) — 01-transformer-architectureMLP— synonyme FFN — 01-transformer-architectureMMLU regression— check capacités générales après FT — 32-fine-tuning-en-pratiquemodel deprecation— version retirée par provider — 30-open-vs-closed-sourcemodel router— routage par requête — 19-model-routing-fallbackMoE(Mixture of Experts) — experts parallèles + router — 05-mixture-of-expertsMQA(Multi-Query Attention) — un seul KV head — 01-transformer-architecture · 08-kv-cache-managementMRR— Mean Reciprocal Rank — 21-retrieval-evalsMTTD/MTTR— Mean Time To Detect/Recover — 29-production-failure-modesmulti-provider— utiliser plusieurs APIs — 19-model-routing-fallbackmultilingual tokenization— tokenization équilibrée entre langues — 04-tokenizationmTLS— mutual TLS, auth inter-services — 33-on-premise-en-pratique · 36-mcp-agent-protocols
N
namespace(vector store) — isolation logique — 26-multi-tenant-isolationNCCL— Nvidia Collective Communications Library — 33-on-premise-en-pratique · 06-distributed-trainingNDCG— Normalized Discounted Cumulative Gain — 21-retrieval-evalsneocloud— cloud GPU spécialisé (CoreWeave, Lambda, Crusoe, Nscale) — 33-on-premise-en-pratiqueneedle in a haystack— test retrieval long context — 14-context-engineering · 02-position-encodingsNIS2— directive cybersécurité EU — 37-eu-ai-actNVL72— GB200 NVL72 rack-scale system — 33-on-premise-en-pratiqueNVLink/NVSwitch— Nvidia inter-GPU fabric intra-node — 33-on-premise-en-pratiqueNoPE— pas d’encodage de position — 02-position-encodingsNTK-aware scaling— extension RoPE pour long context — 02-position-encodings
O
offloading— KV sur CPU RAM/NVMe — 08-kv-cache-managementon-prem— déploiement datacenter propre — 31-on-prem-vs-cloudonline softmax— softmax incrémental (FlashAttention) — 03-flash-attentiono1/o3— OpenAI reasoning models — 34-reasoning-modelsOAuth 2.0/OpenID Connect— auth standards, base MCP RC 2026 — 36-mcp-agent-protocolsOOV(Out-Of-Vocabulary) — token absent du vocab — 04-tokenizationopen weights— poids téléchargeables — 30-open-vs-closed-sourceOpenTelemetry— standard tracing — 23-llm-observabilityOPEX(Operational Expenditure) — coût opérationnel récurrent — 30-open-vs-closed-source · 31-on-prem-vs-cloud · 33-on-premise-en-pratiqueORPO(Odds Ratio Preference Optimization) — SFT + preference en une étape — 07-post-training-alignmentoutlier(activation) — valeurs énormes qui cassent la quant — 12-quantization-deep-diveoutlines— lib constrained decoding — 16-structured-outputsoutput drift— distribution des outputs change — 23-llm-observabilityoutput filtering— scan avant return — 25-safety-engineering
P
p50/p99— latency percentiles — 23-llm-observabilityPagedAttention— KV en pages, vLLM — 08-kv-cache-management · 10-continuous-batching-paged-attentionpatch(ViT) — bloc fixe d’image traité comme token — 35-multimodalPFC(Priority Flow Control) — lossless Ethernet pour RoCE — 33-on-premise-en-pratiquePhi-4 multimodal— Microsoft small edge multimodal — 35-multimodalPixtral— Mistral vision model — 35-multimodal · 30-open-vs-closed-sourcePreparedness Framework— OpenAI safety posture — 37-eu-ai-actpairwise comparison— A vs B en LLM-as-judge — 22-evalsPareto frontier— courbe tradeoff — 28-tradeoffspartial failure— tool fait 2/3 actions — 17-function-calling-reliability · 29-production-failure-modespeft— lib Hugging Face Parameter-Efficient Fine-Tuning — 32-fine-tuning-en-pratiqueper-channel/per-group— granularité quant — 12-quantization-deep-divepermission boundary— limite des actions autorisées — 17-function-calling-reliability · 25-safety-engineeringPII— Personal Identifiable Information — 25-safety-engineeringpipeline parallelism(PP) — layers split entre GPUs — 06-distributed-trainingPlan-and-Execute— pattern d’agent — 13-harness-engineeringpolicy— modèle entraîné en RL — 07-post-training-alignmentposition interpolation(PI) — RoPE scaling par interpolation — 02-position-encodingsposition bias— judge favorise premier — 22-evalspositional encoding— encodage de position — 02-position-encodingspost-norm— normalisation après sublayer — 01-transformer-architecturepost-training— phase après pre-training — 07-post-training-alignmentPPO(Proximal Policy Optimization) — RL algorithm pour RLHF — 07-post-training-alignmentPQ— Product Quantization — 20-rag-architecturepre-norm— normalisation avant sublayer — 01-transformer-architecturepre-training— phase next-token prediction — 07-post-training-alignmentprecision@k— % top-k pertinents — 21-retrieval-evalsprefill— phase initiale compute-bound — 09-prefill-vs-decodeprefix cache— synonyme prompt cache — 15-prompt-vs-semantic-cachingprefix sharing— pages KV partagées — 08-kv-cache-management · 10-continuous-batching-paged-attentionprefix tuning— apprendre préfixe d’embeddings injecté à chaque couche — 32-fine-tuning-en-pratiqueprohibited practices(AI Act) — usages interdits (social scoring etc.) — 37-eu-ai-actpreference tuning— alignment via préférences — 07-post-training-alignmentpricing risk— risque de changement tarifaire unilatéral — 30-open-vs-closed-sourceprinciple of least privilege— perm minimale — 25-safety-engineeringprompt caching— cache du KV prefix — 15-prompt-vs-semantic-cachingprompt drift— perf dégrade silencieusement — 29-production-failure-modesprompt injection— input qui détourne le modèle — 25-safety-engineeringProtect AI— provider safety — 25-safety-engineeringprovider API— endpoint cloud du fournisseur du modèle — 31-on-prem-vs-cloudprovisioned throughput— capacité dédiée, tarif fixe — 30-open-vs-closed-source · 31-on-prem-vs-cloudP-tuning/prompt tuning— embeddings soft prependés au prompt — 32-fine-tuning-en-pratiquePTQ(Post-Training Quantization) — 12-quantization-deep-divePUE(Power Usage Effectiveness) — efficacité énergétique datacenter — 33-on-premise-en-pratique
Q
QAT(Quantization-Aware Training) — 12-quantization-deep-divequality bar— seuil qualité — 28-tradeoffsquantization— réduire bits de précision — 12-quantization-deep-divequota— limite per tenant — 19-model-routing-fallbackQwQ— Alibaba Qwen reasoning model 32B Apache 2.0 — 34-reasoning-modelsQwen 2.5 / Qwen 3— Alibaba open-weight frontier — 30-open-vs-closed-sourceQwen-VL— Alibaba vision-language model — 35-multimodal
R
radix tree— structure pour prefix sharing — 08-kv-cache-managementRagas— framework eval RAG — 21-retrieval-evalsrail-optimized— fabric un rail par GPU pour training — 33-on-premise-en-pratiquerank(LoRA) — dimension des matrices adapter (r=4-64 typique) — 32-fine-tuning-en-pratiqueR1/R1-Zero— DeepSeek reasoning models — 34-reasoning-modelsRDMA— Remote Direct Memory Access — 33-on-premise-en-pratiqueRealtime API— OpenAI voice agent low-latency — 35-multimodalreasoning model— modèle qui produit un long CoT avant réponse — 34-reasoning-modelsred teaming— adversarial testing structuré — 22-evals · 37-eu-ai-actResponsible Scaling Policy(Anthropic) — safety posture publique — 37-eu-ai-actrate limit(429) — limite requêtes — 19-model-routing-fallbackRCA— Root Cause Analysis — 29-production-failure-modesReAct— pattern Think-Act-Observe — 13-harness-engineeringrecall@k— % chunks pertinents dans top-k — 21-retrieval-evalsrecomputation— recalcul au backward (FlashAttention) — 03-flash-attentionred team— adversarial testing humain — 22-evalsreference policy— policy SFT de référence (RLHF/DPO) — 07-post-training-alignmentreflection— self-critique avant action — 18-agent-guardrailsregression test— protection contre régressions — 22-evalsre-entrant call— tool qui s’appelle lui-même — 17-function-calling-reliabilityrepair loop— retry après schema fail — 16-structured-outputsreranking— rerank top-100 → top-10 — 20-rag-architectureresidual stream— flux additif Transformer — 01-transformer-architecturereward hacking— gaming du reward model — 07-post-training-alignmentreward model— prédicteur de préférence RLHF — 07-post-training-alignmentring attention— context parallelism via anneau — 06-distributed-trainingRLHF(Reinforcement Learning from Human Feedback) — 07-post-training-alignmentRMSNorm— normalisation par RMS — 01-transformer-architectureRoCE v2— RDMA over Converged Ethernet — 33-on-premise-en-pratiqueRoPE(Rotary Position Embedding) — encodage relatif par rotation — 02-position-encodingsrouter(MoE) — sélecteur des experts — 05-mixture-of-expertsrow-level security(RLS) — DB isolation — 26-multi-tenant-isolationRRF— Reciprocal Rank Fusion — 20-rag-architecturerunaway agent— boucle infinie — 29-production-failure-modesRWKV— architecture RNN/Transformer hybride — 02-position-encodings
S
salient weights— weights qui multiplient outliers — 12-quantization-deep-divesampling(MCP) — server demande génération au host LLM — 36-mcp-agent-protocolssandboxing— exec isolée — 18-agent-guardrailsSecNumCloud— qualification cloud souverain ANSSI — 33-on-premise-en-pratiqueserious incident report(AI Act) — obligation provider GPAI — 37-eu-ai-actscaled dot-product attention— formule canonique d’attention — 01-transformer-architecture · 03-flash-attentionschema pass rate— % outputs valides — 16-structured-outputsself-attention— attention sur la même séquence — 01-transformer-architectureself-critique— synonyme reflection — 18-agent-guardrailsself-hosted— auto-hébergement des modèles — 30-open-vs-closed-source · 31-on-prem-vs-cloudself-managed cloud— DIY serving sur cloud public (vLLM sur EC2/GKE) — 31-on-prem-vs-cloudself-preference(bias) — judge préfère même famille — 22-evalssemantic cache— cache par similarité embedding — 15-prompt-vs-semantic-cachingSentencePiece— librairie tokenization — 04-tokenizationsequence parallelism— synonyme context parallelism — 06-distributed-trainingSFT(Supervised Fine-Tuning) — fine-tuning sur (instruction, response) — 07-post-training-alignmentshadow eval— modèle FT évalué en parallèle de la prod sur sample — 32-fine-tuning-en-pratiqueshared expert— expert toujours activé (MoE) — 05-mixture-of-expertssliding window(attention) — fenêtre bornée sur K tokens — 02-position-encodings · 08-kv-cache-managementsliding window(context) — ne garder que N derniers tours — 14-context-engineeringSlurm— orchestrateur HPC batch — 06-distributed-training · 33-on-premise-en-pratiqueSmoothQuant— gestion outliers W8A8 — 12-quantization-deep-divesoftmax— normalisation probabiliste — 01-transformer-architectureSOC 2— audit US (Type I/II) — 33-on-premise-en-pratiquesovereign AI— souveraineté complète de la chaîne IA — 30-open-vs-closed-source · 31-on-prem-vs-cloudsovereign cloud— cloud public sous juridiction locale (OVH, Scaleway, T-Systems) — 31-on-prem-vs-cloudspan— sous-op dans une trace — 23-llm-observabilitysparse activation— peu de paramètres actifs (MoE) — 05-mixture-of-expertssparse retrieval— BM25, SPLADE — 20-rag-architecturespeculative decoding— draft + verify lossless — 11-speculative-quant-distillSPLADE— sparse learned retrieval — 20-rag-architectureSRAM— mémoire on-chip GPU — 03-flash-attentionSSM(State Space Model) — base architecture Mamba — 02-position-encodingsstate compaction— résumer historique — 13-harness-engineeringstatic batching— batch fixe (anti-pattern) — 10-continuous-batching-paged-attentionstdio transport(MCP) — subprocess local communication — 36-mcp-agent-protocolsStreamable HTTP(MCP) — RC 2026 transport stateless — 36-mcp-agent-protocolsstuck detection— hash actions récentes — 18-agent-guardrailsstructured context— XML tags, sections — 14-context-engineeringstructured outputs— JSON schema garanti — 16-structured-outputssubword— unité de tokenization — 04-tokenizationsupply chain attack— modèle téléchargé avec poids modifiés malveillamment — 30-open-vs-closed-sourcesystemic risk(GPAI) — présomption AI Act > 10²⁵ FLOPs — 37-eu-ai-actSystem 2— pensée délibérée, analogie reasoning models — 34-reasoning-modelsSwiGLU— activation gated (Llama, Mistral) — 01-transformer-architecturesymmetric/asymmetric(quant) — schéma de quantization — 12-quantization-deep-dive
T
tail latency— p95/p99 — 19-model-routing-fallback · 23-llm-observabilitytarget model— gros modèle qui valide — 11-speculative-quant-distilltarget modules(LoRA) — projections où ajouter les adapters (q_proj, v_proj…) — 32-fine-tuning-en-pratiqueTDM Reservation— opt-out copyright (Text-and-Data-Mining) — 37-eu-ai-acttemperature— sampling param — 23-llm-observabilitytest-time compute scaling— qualité monte avec compute par requête — 34-reasoning-modelstenant_id— clé d’isolation — 26-multi-tenant-isolationtenant tier— niveau de service — 19-model-routing-fallback · 24-cost-attributiontensor parallelism(TP) — split horizontal de matrices — 06-distributed-training · 31-on-prem-vs-cloud · 33-on-premise-en-pratiquetermination condition— fin de l’agent loop — 18-agent-guardrailsthinking mode— mode reasoning switchable (Qwen3) — 34-reasoning-modelstools(MCP) — fonctions invocables exposées par server — 36-mcp-agent-protocolstool spoofing— server MCP qui se fait passer pour un autre — 36-mcp-agent-protocolstorchtune— recipe library Meta FT en PyTorch — 32-fine-tuning-en-pratiquetraining data summary(AI Act) — résumé public training data — 37-eu-ai-actTTS(Text-to-Speech) — génération audio depuis texte — 35-multimodalTiktoken— tokenizer OpenAI en Rust — 04-tokenizationtiling— découpage en blocs (FlashAttention) — 03-flash-attentiontoken— unité de manipulation du modèle — 04-tokenizationtoken budget— max tokens session — 18-agent-guardrailstokenizer— encode/decode texte ↔ tokens — 04-tokenizationtool budget— max calls par tool — 18-agent-guardrailstool contract— schema + description — 17-function-calling-reliabilitytool registry— catalogue des tools — 13-harness-engineeringtop-k gating/top-k routing— sélection MoE — 05-mixture-of-expertsTPOT— Time Per Output Token — 09-prefill-vs-decodetrace— request end-to-end — 23-llm-observabilityTree-of-Thought— pattern branches parallèles — 13-harness-engineeringtrl— lib Hugging Face TRL pour RLHF/DPO/PPO — 32-fine-tuning-en-pratiquetrust boundary— niveau de trust des données — 25-safety-engineeringTTFT— Time To First Token — 09-prefill-vs-decodeTTL— Time To Live (cache) — 15-prompt-vs-semantic-caching
U
Unigram LM— algorithme tokenization probabiliste — 04-tokenizationunit economics— cost/LTV — 24-cost-attributionunified multimodal— modèle natif texte + image + audio — 35-multimodalunsloth— framework FT optimisé single-GPU — 32-fine-tuning-en-pratiqueuntrusted input— contenu user/tool à filtrer — 25-safety-engineering
V
vendor lock-in— dépendance fournisseur — 30-open-vs-closed-sourceViT(Vision Transformer) — encoder image en patches — 35-multimodalvLLM— serving engine canonique — 10-continuous-batching-paged-attention · 31-on-prem-vs-cloud · 33-on-premise-en-pratiqueVLM(Vision-Language Model) — modèle multimodal image + texte — 35-multimodalvocabulary— ensemble des tokens — 04-tokenizationvoice cloning— synthèse voix imitant locuteur — 35-multimodalVoxtral— Mistral audio model (Small + Mini Apache 2.0) — 35-multimodalVoxtral TTS— Mistral text-to-speech (mars 2026) — 35-multimodalVRAM— GPU memory — 08-kv-cache-management · 33-on-premise-en-pratique
W
W8A8— Weight 8-bit, Activation 8-bit — 12-quantization-deep-diveW4A16— Weight 4-bit, Activation 16-bit — 12-quantization-deep-divewallclock budget— max temps session — 18-agent-guardrailswarmup ratio— % steps en warmup du learning rate — 32-fine-tuning-en-pratiqueWhisper(v3) — OpenAI ASR multilingue OSS — 35-multimodalWebRTC— streaming bidirectionnel voice agents — 35-multimodalweight-only quantization— quant weights seuls — 12-quantization-deep-diveWordPiece— algorithme tokenization BERT — 04-tokenization
X
XGrammar— lib constrained decoding rapide — 16-structured-outputs
Y
YaRN— RoPE scaling avec attention temperature — 02-position-encodings
Z
ZeRO(1/2/3) — sharding strategies — 06-distributed-trainingzero-shot— pas d’exemples dans le prompt — 27-ft-vs-icl-vs-rag-vs-distill