Prérequis

01. Transformer architecture — pour la base attention/tokenization. 04. Tokenization — pour comprendre comment les patches images et audio frames s’intègrent dans la même séquence.

Notes liées

Le concept

Jusqu’en 2023, les LLM étaient text-only. À partir de 2024-2025, le multimodal devient natif : un seul modèle ingère texte + images + audio et produit texte + audio, sans pipeline cousue de modèles séparés (Whisper → LLM → TTS).

Trois modalités principales :

  • Vision : images, document scans, vidéo (frames échantillonnées).
  • Audio : speech recognition, audio understanding, music.
  • Speech / TTS : génération audio en sortie, voice cloning, real-time conversation.

Deux familles d’architectures coexistent : modèles unifiés (un seul Transformer ingère et produit toutes modalités) et modèles modulaires (vision/audio encoders distincts feedant un LLM textuel).

Vision-language models (VLM)

Architecture canonique

Image → Vision encoder (ViT) → patches embeddings → projection → injection dans le LLM
  1. L’image est découpée en patches de taille fixe (16×16 pixels typique pour ViT, 14×14 ou 32×32 selon variantes).
  2. Chaque patch devient un token visuel embeddé.
  3. Une projection (MLP ou cross-attention) adapte les embeddings à l’espace du LLM.
  4. Les vision tokens sont injectés dans la séquence d’entrée du LLM, mélangés au texte.

Une image 1024×1024 = ~4 000 patches en 16×16 → ~4 000 tokens supplémentaires. Le contexte effectif est donc fortement consommé par l’image — implication directe sur KV cache et coût.

Stratégies de fusion

StratégieDescriptionLatencyQualité
Early fusionVision tokens injectés dès l’embedding du LLMFaibleBonne
Intermediate fusionCross-attention entre vision et text à plusieurs couchesMoyenneTrès bonne
Late fusionVision encoder séparé, modalités fusionnées en fin de pipelineÉlevéeMax sur certains benchmarks

Tendance 2025-2026 : early fusion native (modèles vraiment unifiés type GPT-4o, Llama 4, Mistral Small 4) plutôt que late fusion (style LLaVA original).

Modèles VLM 2025-2026

ModèleLabLicenceNotes
GPT-4oOpenAIClosedNatif multimodal, vision + audio + texte unifiés
Gemini 2 Pro / UltraGoogleClosedLong context multimodal (1M+ tokens), video natif
Claude 3.5/4 visionAnthropicClosedVision excellente sur documents, charts
Pixtral 12BMistralApache 2.0OSS, ViT-large encoder, intégré dans Mistral Small 4
Llama 4 (2025)MetaCommunity licenseMultimodal natif, vision + texte
Qwen2-VL / Qwen3-VLAlibabaApache 2.0OSS, top open-weight VLM, multi-image
NVLMNvidiaOpenRecherche, fusion strategy explorée
Phi-3-vision / Phi-4-multimodalMicrosoftMITPetits modèles edge-able

Cas d’usage VLM

  • OCR avancé : Pixtral, Qwen2-VL excellents sur documents structurés (tables, forms).
  • Visual Question Answering (VQA) : GPT-4o, Claude, Gemini pour Q&A sur images.
  • UI understanding : agents qui voient les écrans (Anthropic Computer Use, OpenAI Operator).
  • Charts et graphs : Claude particulièrement performant sur l’extraction depuis visualisations.
  • Vidéo : Gemini long context (frames échantillonnées), GPT-4o sur clips courts.
  • Image generation : couplé à un decoder image (DALL-E 3, Imagen, Gemini image gen, Mistral Pixtral image gen 2026).

Audio understanding (ASR + ALM)

Deux familles :

Speech-to-text (ASR) classique

Pipeline traditionnel : audio → encoder → text. Pas vraiment LLM mais souvent intégré.

  • Whisper v3 / v3-turbo (OpenAI) : standard de fait OSS, multilingue, ~99 langues.
  • NVIDIA Parakeet / Canary : alternatives Nvidia.
  • AssemblyAI, Deepgram : APIs commerciales avec features (diarisation, timestamps).

Audio language models (ALM)

Modèles unifiés audio + texte, qui comprennent au-delà de la transcription : intent, emotion, contexte audio (music vs speech, langue, accent).

  • Voxtral Small (24B) / Mini (3B) (Mistral, juillet 2025) : premier audio model open weight enterprise-grade. Apache 2.0 sur Small et Mini.
  • GPT-4o audio (OpenAI) : audio natif unifié avec texte.
  • Gemini 2 audio (Google) : audio input intégré.
  • Whisper successors et fine-tunes : pour transcription pure.

Génération audio et voice (TTS)

TTS classique

  • ElevenLabs : leader marché, voice cloning, multilingue.
  • OpenAI TTS (modèles tts-1, tts-1-hd, gpt-4o-mini-tts) : pricing accessible.
  • Google Cloud TTS, Azure TTS : enterprise standard.

TTS frontier 2025-2026

  • Voxtral TTS (Mistral, mars 2026) : built sur Ministral 3B, 8 GB BF16, runnable single GPU 16 GB+, zero-shot voice cloning, multilingue, real-time streaming. Concurrent direct d’ElevenLabs.
  • Cartesia Sonic : ultra-low latency, modèles SSM (Mamba-based) pour streaming.
  • Sesame : conversation naturelle.

Architectures unifiées 2025-2026

Le mouvement clé : un seul modèle qui ingère et produit toutes modalités.

GPT-4o (OpenAI, mai 2024)

  • Natif unifié speech + vision + text — pas de pipeline cousue.
  • Latency conversation ~250ms (vs ~3s pipeline classique).
  • Audio in + audio out + image in + text in/out dans un seul forward pass.
  • OpenAI Realtime API (août 2025) : exposition de cette capability via WebSocket pour voice agents low-latency.

Mistral Small 4 (mars 2026)

  • Unifie Magistral (reasoning) + Pixtral (vision) + Devstral (code).
  • Un seul modèle, multiple modes accessibles.
  • Apache 2.0.

Llama 4 (Meta, 2025)

  • Natif multimodal, vision + texte.
  • Conserve la philosophie open-weight Community License.

Gemini 2 (Google)

  • Long context (1M+ tokens) multimodal.
  • Video natif (frames échantillonnées + audio synchronisé).
  • Strength : capacité à traiter de très longs documents multimodaux.

Implications opérationnelles

Tokens visuels et coût

Une image 1024×1024 = ~4k tokens. Pricing typique 2025 :

  • GPT-4o : compte les tokens image dans le total.
  • Claude : tile-based, prix selon taille.
  • Mistral / Pixtral : tokens image inclus dans le contexte.

À monitorer : une feature qui upload des photos peut faire exploser le coût (cf. 24).

Latency audio real-time

Le temps de réponse cible pour la conversation humaine est ~250-500ms. Requirements :

  • Modèle natif audio (pas pipeline STT → LLM → TTS).
  • Streaming bidirectionnel (WebSocket / WebRTC).
  • Pas de reasoning long si latency critique.
  • Pré-fetch du contexte côté serveur.

Eval multimodal

Benchmarks canoniques :

  • MMMU — Massive Multi-discipline Multimodal Understanding.
  • MathVista — math avec visualisations.
  • DocVQA — documents scannés.
  • ChartQA — extraction depuis charts.
  • AI2D — diagrammes scientifiques.
  • VATEX, MSR-VTT — video captioning.
  • LibriSpeech, FLEURS — ASR multilingue.

Sécurité

Vecteurs d’attaque spécifiques multimodal :

  • Image-based prompt injection : texte caché dans image qui détourne le modèle.
  • Adversarial images : patterns conçus pour induire des classifications erronées.
  • Voice cloning abuse : usurpation par TTS.
  • Voir 25-safety-engineering pour les mitigations.

Études de cas comparées (2025-2026)

LabVLMAudio inAudio outArchitecture
OpenAIGPT-4o visionGPT-4o audio + WhisperGPT-4o TTS + gpt-4o-mini-ttsUnifié natif
GoogleGemini 2 multimodalGemini 2 audioTTS APIUnifié natif (vision+audio+video)
AnthropicClaude visionNon (transcription via API tiers)Non (TTS via tiers)Vision + texte
MetaLlama 4 vision(en évolution)(en évolution)Multi-modèle
MistralPixtral 12B / Small 4Voxtral Small/MiniVoxtral TTSModèles séparés, unification dans Small 4
Alibaba (Qwen)Qwen2-VL, Qwen3-VLQwen-AudioModèles séparés
MicrosoftPhi-4-multimodalPhi-4-multimodal(via API tiers)Petit unifié edge

Patterns

Use caseChoix typique
OCR documents bureautiquesPixtral, Qwen2-VL, Claude
Agent UI / Computer UseClaude (Computer Use), GPT-4o (Operator)
Voice agent customer supportGPT-4o Realtime, Voxtral + Voxtral TTS
Long context multimodal (vidéo, gros docs)Gemini 2 Pro
Transcription multilingueWhisper v3, Voxtral
TTS voice cloningElevenLabs, Voxtral TTS, Cartesia
Vision on-prem souverainPixtral self-hosted, Qwen2-VL
Edge multimodalPhi-4-multimodal, Voxtral Mini, LLaVA-Phi

Pièges courants

  • Image trop grande non rescalée — explosion des tokens, latency et cost.
  • Pipeline audio cousue alors qu’unifié dispo — latency 3s au lieu de 250ms.
  • Pas de fallback texte — un modèle multimodal down = toute la feature down.
  • Streaming non bidirectionnel pour voice — half-duplex = UX médiocre.
  • Vision prompt injection ignoré — pas d’eval adversarial sur images.
  • Voice cloning sans consent — risque réglementaire et éthique.
  • OCR avec extraction brute — pas de structure, données plates à reformater côté harness.

Vocabulaire clé

VLM (Vision-Language Model), ALM (Audio-Language Model), ViT (Vision Transformer), patch, vision encoder, multimodal projection, early fusion, intermediate fusion, late fusion, cross-attention, unified multimodal, Pixtral, Voxtral, GPT-4o, Gemini 2 multimodal, Llama 4 multimodal, Qwen-VL, Whisper, Realtime API, WebRTC, STT/TTS, voice cloning, MMMU, DocVQA, ChartQA, MathVista, LibriSpeech, image-based prompt injection, adversarial image.

Synthèse

Le multimodal devient le standard 2024-2026 : modèles natifs qui ingèrent texte + image + audio et produisent texte + audio (parfois image). VLM standard = ViT pour découper l’image en patches → projection → injection dans le LLM. Stratégies de fusion : late (qualité max, latency haute), early (latency basse, qualité quasi équivalente sur les modèles unifiés natifs). Acteurs : OpenAI GPT-4o unifié natif (Realtime API ~250ms), Google Gemini 2 long context multimodal, Anthropic Claude vision (forte sur documents), Meta Llama 4 OSS multimodal, Mistral Pixtral + Voxtral + Voxtral TTS + unification dans Small 4, Qwen2/3-VL OSS multilingue, Microsoft Phi-4-multimodal edge. Audio : Whisper v3 standard ASR OSS, Voxtral premier ALM open weight enterprise-grade, Voxtral TTS / ElevenLabs / Cartesia pour génération voice. Implications opérationnelles : tokens image consomment massivement le contexte (4k tokens pour 1024×1024), latency audio real-time exige une architecture unifiée, eval sur MMMU/DocVQA/ChartQA/MathVista/LibriSpeech, vecteurs d’attaque spécifiques (image-based prompt injection, voice cloning abuse). Pas de “meilleur” lab universel : choix selon modalité dominante, contrainte souveraineté, et latency requise.