Notes liées

Les quatre dimensions

Le inference stack se tune selon latency / quality / cost / reliability. Les quatre dimensions ne sont pas maximisables simultanément. Le choix porte sur un point d’opération.

Latency

Composants :

Leviers de réduction :

Quality

Composants :

  • Base model capability.
  • Prompt design.
  • Context relevance (RAG).
  • Tool reliability.
  • Eval-driven iteration.

Leviers :

Cost

Composants :

  • Tokens input + output × model price.
  • Retrieval infra (vector store, embed compute).
  • Tool exec cost (downstream APIs).
  • Observability / logging storage.

Leviers :

Reliability

Composants :

  • Provider uptime.
  • Rate limits.
  • Schema validation pass rate.
  • Tool success rate.
  • Agent termination correctness.

Leviers :

Les trade-offs concrets

Quality ↔ Cost

  • Plus gros modèle = qualité supérieure + coût supérieur. Choix de routing.

Quality ↔ Latency

  • Reflection / self-critique = qualité supérieure + latency supérieure (1 call de plus).
  • Cross-encoder reranker = retrieval supérieur + 100-200ms de latency ajoutée.

Cost ↔ Latency

  • Hedging (lancer sur 2 providers) = p99 latency réduite + cost ×2.
  • Prompt caching = amélioration des deux (mais courbe d’apprentissage).

Quality ↔ Reliability

  • Plus de fallbacks = reliability supérieure mais réponses dégradées plus fréquemment.
  • Schema strict = reliability supérieure + plus de schema failures → repair loops.

Cost ↔ Reliability

  • Fallback chain à 4 niveaux = reliability supérieure + worst-case cost = somme des modèles.
  • Hedging = reliability supérieure + 2x cost sur certaines requêtes.

Pareto frontier

Le système opère sur une Pareto frontier. Améliorer une dimension dégrade une autre.

Exceptions (gains gratuits) :

Lorsqu’un gain gratuit est disponible, il doit être pris. Le reste relève de la négociation.

Cas pratique : choix d’architecture

Use case 1 : chatbot support customer, B2B SaaS

100k req/jour, SLA p99 < 3s, cost target $0.01/req.

Choix :

  • Routing classifier-based : 80% queries simples → Mistral Small, 20% complexes → Large.
  • RAG hybrid search + reranker (qualité +30%).
  • Prompt caching sur system prompt + docs (cost ×0.3 sur cache hits).
  • Continuous batching côté serving.
  • Repair loop max 2 retries.
  • Fallback Small si Large timeout > 2s.

Use case 2 : agent autonome multi-step

1000 sessions/jour, SLA p99 < 60s/session, cost target $0.50/session.

Choix :

Vocabulaire clé

latency budget, quality bar, cost target, reliability SLA, Pareto frontier, routing, tradeoff, gain gratuit, bottleneck, goodput.

Synthèse

Quatre dimensions à tuner : latency, quality, cost, reliability. Aucune maximisation simultanée possible — on choisit un point. Certains gains sont gratuits — FlashAttention, continuous batching, paged attention, speculative decoding, prompt caching — toujours à prendre. Le reste relève de la négociation : plus gros modèle = quality up, cost up. Reflection = quality up, latency up. Hedging = reliability et tail latency up, cost ×2. Fallback chain = reliability up mais worst-case cost = somme des modèles. Pour choisir, on part du use case : SLAs strictes pour chat interactif, throughput pour batch offline, agent autonome où quality > latency individuelle. L’architecture résultante combine routing + caching + serving optim + budget enforcement, pas un seul levier.