Mistral Voxtral Transcribe 2, transcription en temps réel
- Maxime Hiez
- Mistral AI
- 05 Feb, 2026
Introduction
Mistral AI vient de dévoiler Voxtral Transcribe 2, sa seconde génération de modèles de transcription vocale avec une qualité de transcription de pointe, une latence ultra-faible et des fonctionnalités avancées pour des usages professionnels, en production ou en temps réel.
Présentation de Voxtral Transcribe 2
Mistral Voxtral Transcribe 2 est une famille de modèles speech-to-text à la fois puissante, rapide et économique, conçue pour répondre aux besoins actuels des applications vocales : rencontres intelligentes, assistants vocaux, centres de contact, sous-titres en direct, conformité réglementaire, …
Ce lancement comprend deux modèles complémentaires :
- Voxtral Mini Transcribe V2 : Traitement audio par lots avec fonctionnalités avancées (diarisation des intervenants, timestamps, biais de contexte).
- Voxtral Realtime : Transcription en direct avec latence configurable jusqu’à moins de 200 ms, ouvrant la voie à des interactions voix-IA réellement naturelles.

Caractéristiques principales
Voxtral Mini Transcribe V2 — Transcription par lots
- Idéal pour les fichiers audio pré-enregistrés (réunions, interviews, podcasts)
- Diarisation des intervenants : Identifie qui parle et à quel moment
- Timestamps mot à mot : Chaque mot dispose d’un début / fin précis
- Biais de contexte : Possibilité d’indiquer jusqu’à 100 caractères spécifiques pour améliorer la reconnaissance de noms propres ou de termes techniques
- Supporte jusqu’à 3 heures d’audio par requête
- Multilingue : 13 langues supportées (Anglais, Chinois, Hindi, Espagnol, Arabe, Français, Portugais, Russe, Allemand, Japonais, Coréen, Italien et Néerlandais)
- Efficacité prix-performance : ~4% d’erreur sur le benchmark FLEURS à seulement 0,003$ par minute, jusqu’à 5 fois moins cher que les alternatives majeures

Voxtral Realtime — Transcription en temps réel
- Construction native streaming : Transcrit l’audio au fur et à mesure qu’il arrive, sans découpage artificiel en tranches
- Latence configurable jusqu’à < 200 ms, ce qui rend la transcription quasiment instantanée
- Maintient une précision compétitive même à faible latence (1-2% d’erreur supplémentaire par rapport au modèle de lots)
- Open-source via licence Apache 2.0 : Poids du modèle disponibles pour déploiement local ou sur edge
- API disponible pour des usages cloud

Expérience développeur et intégration
Mistral propose maintenant un audio playground dans Mistral Studio, permettant de :
- Importer des fichiers audio (.mp3, .wav, .flac, …) jusqu’à 1GB
- Tester instantanément la transcription avec ou sans diarisation
- Ajuster les options (timestamps, biais de contexte)
Les modèles sont également accessibles via Le Chat ou directement via API.
Confidentialité et conformité
Les deux modèles peuvent être déployés en environnements on-premise ou cloud privé, avec des configurations compatibles GDPR et HIPAA, un point crucial pour des usages en santé, finance ou services réglementés.
Cas d’usage professionnels
- Intelligence de réunion : Analyse de réunions multilingues avec attribution précise des interventions et génération automatique de résumés ou comptes-rendus.
- Assistants vocaux et voice agents : Capteurs de voix capables de répondre ou déclencher des actions avec très faible latence, parfait pour des assistants intégrés ou vocaux.
- Centres de contact : Transcription en direct des appels, analyse de sentiment, suggestions automatiques aux agents et insertion de données dans des CRM en temps réel.
- Média & sous-titres : Génération automatique de sous-titres multilingues avec timestamps fiables, même dans des environnements bruyants.
- Conformité : Surveillance des interactions audio pour audits ou conformité, avec logs horodatés et traçables.
Conclusion
Voxtral Transcribe 2 place une nouvelle barre dans l’écosystème des modèles de reconnaissance vocale à la fois rapide, précis et économique. Avec des options pour les lots ou le temps réel, et une stratégie open-source pour les cas nécessitant confidentialité et contrôle, c’est une brique essentielle pour toute plateforme IA vocale moderne, tout en rendant ces capacités accessibles à un large éventail d’organisations.
Sources
Mistral AI - Voxtral Transcribe 2
Avez-vous apprécié cet article ? Vous avez des questions, commentaires ou suggestions, n’hésitez pas à m’envoyer un message depuis le formulaire de contact.
N’oubliez pas de nous suivre et de partager cet article.