Mistral Voxtral Transcribe 2, transcription en temps réel

Maxime Hiez
Mistral AI
05 Feb, 2026

Introduction

Mistral AI vient de dévoiler Voxtral Transcribe 2, sa seconde génération de modèles de transcription vocale avec une qualité de transcription de pointe, une latence ultra-faible et des fonctionnalités avancées pour des usages professionnels, en production ou en temps réel.

Présentation de Voxtral Transcribe 2

Mistral Voxtral Transcribe 2 est une famille de modèles speech-to-text à la fois puissante, rapide et économique, conçue pour répondre aux besoins actuels des applications vocales : rencontres intelligentes, assistants vocaux, centres de contact, sous-titres en direct, conformité réglementaire, …

Ce lancement comprend deux modèles complémentaires :

Voxtral Mini Transcribe V2 : Traitement audio par lots avec fonctionnalités avancées (diarisation des intervenants, timestamps, biais de contexte).
Voxtral Realtime : Transcription en direct avec latence configurable jusqu’à moins de 200 ms, ouvrant la voie à des interactions voix-IA réellement naturelles.

Caractéristiques principales

Voxtral Mini Transcribe V2 - Transcription par lots

Idéal pour les fichiers audio pré-enregistrés (réunions, interviews, podcasts)
Diarisation des intervenants : Identifie qui parle et à quel moment
Timestamps mot à mot : Chaque mot dispose d’un début / fin précis
Biais de contexte : Possibilité d’indiquer jusqu’à 100 caractères spécifiques pour améliorer la reconnaissance de noms propres ou de termes techniques
Supporte jusqu’à 3 heures d’audio par requête
Multilingue : 13 langues supportées (Anglais, Chinois, Hindi, Espagnol, Arabe, Français, Portugais, Russe, Allemand, Japonais, Coréen, Italien et Néerlandais)
Efficacité prix-performance : ~4% d’erreur sur le benchmark FLEURS à seulement 0,003$ par minute, jusqu’à 5 fois moins cher que les alternatives majeures

Voxtral Realtime - Transcription en temps réel

Construction native streaming : Transcrit l’audio au fur et à mesure qu’il arrive, sans découpage artificiel en tranches
Latence configurable jusqu’à < 200 ms, ce qui rend la transcription quasiment instantanée
Maintient une précision compétitive même à faible latence (1-2% d’erreur supplémentaire par rapport au modèle de lots)
Open-source via licence Apache 2.0 : Poids du modèle disponibles pour déploiement local ou sur edge
API disponible pour des usages cloud

Expérience développeur et intégration

Mistral propose maintenant un audio playground dans Mistral Studio, permettant de :

Importer des fichiers audio (.mp3, .wav, .flac, …) jusqu’à 1GB
Tester instantanément la transcription avec ou sans diarisation
Ajuster les options (timestamps, biais de contexte)

Les modèles sont également accessibles via Le Chat ou directement via API.

Watch "Audio playground in Mistral Studio" on YouTube

Confidentialité et conformité

Les deux modèles peuvent être déployés en environnements on-premise ou cloud privé, avec des configurations compatibles GDPR et HIPAA, un point crucial pour des usages en santé, finance ou services réglementés.

Cas d’usage professionnels

Intelligence de réunion : Analyse de réunions multilingues avec attribution précise des interventions et génération automatique de résumés ou comptes-rendus.
Assistants vocaux et voice agents : Capteurs de voix capables de répondre ou déclencher des actions avec très faible latence, parfait pour des assistants intégrés ou vocaux.
Centres de contact : Transcription en direct des appels, analyse de sentiment, suggestions automatiques aux agents et insertion de données dans des CRM en temps réel.
Média & sous-titres : Génération automatique de sous-titres multilingues avec timestamps fiables, même dans des environnements bruyants.
Conformité : Surveillance des interactions audio pour audits ou conformité, avec logs horodatés et traçables.

Conclusion

Voxtral Transcribe 2 place une nouvelle barre dans l’écosystème des modèles de reconnaissance vocale à la fois rapide, précis et économique. Avec des options pour les lots ou le temps réel, et une stratégie open-source pour les cas nécessitant confidentialité et contrôle, c’est une brique essentielle pour toute plateforme IA vocale moderne, tout en rendant ces capacités accessibles à un large éventail d’organisations.

Sources

Mistral AI - Voxtral Transcribe 2

Tester Le Chat de Mistral AI

Avez-vous apprécié cet article ? Vous avez des questions, commentaires ou suggestions, n’hésitez pas à m’envoyer un message depuis le formulaire de contact.

N’oubliez pas de nous suivre et de partager cet article.

Tags :

Près de 70% des entreprises du Fortune 500 utilisent Copilot

Maxime Hiez
Copilot
20 Nov, 2024

Introduction Lors de l'événement Microsoft Ignite 2024, Microsoft a mis en lumière les raisons pour lesquelles près de 70% des entreprises du Fortune 500 utilisent désormais Microsoft 365

Mistral Voxtral Transcribe 2, transcription en temps réel