Agents vocaux natifs dans Foundry en Public Preview

Maxime Hiez
Foundry
05 May, 2026

Introduction

Microsoft a annoncé le 16 Mars 2026 la Public Preview des Voice Native Agents dans Microsoft Azure AI Foundry, une combinaison native de la Voice Live API et du Foundry Agent Service. L’objectif : permettre aux équipes de développement de construire des agents vocaux pilotés par l’IA, capables d’écouter, de raisonner et de répondre en temps réel, sans avoir à orchestrer manuellement les couches de reconnaissance vocale, de modèle de langage et de synthèse vocale. Pour les administrateurs Microsoft 365 et Azure qui supervisent des projets d’automatisation ou de centre de contact, cette annonce marque un point d’inflexion concret.

Architecture : Voice Live API et Foundry Agent Service

Les Voice Native Agents reposent sur deux briques complémentaires. La Voice Live API est une interface unifiée intégrant la reconnaissance vocale (STT), un moteur d’IA générative et la synthèse vocale (TTS), compatible avec l’API Azure OpenAI Realtime. Le Foundry Agent Service prend en charge le raisonnement, l’appel d’outils et l’exécution des flux de travail. Ensemble, ils forment un pipeline bout-en-bout en quatre étapes :

L’utilisateur parle, l’audio est transmis en continu via la Voice Live API.
La parole est traitée en temps réel et convertie en entrée conversationnelle.
Le Foundry Agent Service raisonne, appelle des outils et exécute les actions définies.
La réponse est générée et synthétisée, puis renvoyée sous forme de flux audio.

Un point important pour les équipes déjà sur Azure OpenAI Realtime , il est possible d’ajouter les capacités Azure Speech (suppression de bruit, annulation d’écho, détection de fin de tour) aux applications existantes sans modifier l’architecture en place.

Modèles supportés et capacités vocales

L’offre couvre une large gamme de modèles, tous gérés sans déploiement manuel. Les modèles disponibles à ce jour incluent : gpt-realtime, gpt-realtime-mini, gpt-4o, gpt-4o-mini, gpt-4.1, gpt-4.1-mini, gpt-5, gpt-5-mini, gpt-5-nano, ainsi que phi4-mm-realtime et phi4-mini (en preview).

Sur le volet vocal, les capacités déclarées sont :

Voix disponibles : Plus de 700 voix réparties sur plus de 140 paramètres régionaux, dont 40 voix conversationnelles à haute naturalité.
Traitement audio : Suppression de bruit, annulation d’écho, détection d’interruption et détection avancée de fin de tour.
Avatar TTS : Disponible dans un nombre limité de régions (fonctionnalité en accès restreint à ce stade).

La tarification s’articule en trois niveaux, effectifs depuis le 1er Juillet 2025 (les niveaux existaient avant l’intégration native avec Foundry, annoncée en Mars 2026) :

Voice Live Pro : gpt-realtime, gpt-4o, gpt-4.1, gpt-5, gpt-5-chat
Voice Live Basic : gpt-realtime-mini, gpt-4o-mini, gpt-4.1-mini, gpt-5-mini
Voice Live Lite : gpt-5-nano, phi4-mm-realtime, phi4-mini

Mise en place et prérequis

La prise en main est conçue pour être rapide :

Abonnement Azure : Actif, avec une ressource Microsoft Foundry dans une région supportée.
Agent Foundry existant : La fonctionnalité s’applique à un agent déjà configuré dans le service.
Authentification : Microsoft Entra ID est obligatoire pour l’invocation de l’agent en mode vocal. L’authentification par clé API n’est pas supportée dans ce contexte.

L’activation depuis le portail se limite à basculer l’interrupteur Voice mode dans le playground de l’agent. Aucune reconfiguration d’infrastructure n’est requise.

Côté développement, des SDK sont disponibles pour les quatre environnements principaux :

Python : azure-ai-voicelive
C# : Azure.AI.VoiceLive
JavaScript : @azure/ai-voicelive
Java : Disponible

note

L’intégration classique Agent Service est dépréciée au 31 Août 2026. Les équipes concernées doivent planifier la migration dès maintenant.

Disponibilité régionale et limites de la preview

La couverture régionale est large. La région francecentral est supportée, ce qui est pertinent pour les organisations soumises à des exigences de souveraineté des données. En revanche, l’intégration agent n’est pas disponible dans les régions suivantes : canadacentral, centralindia, centralus, japanwest, koreacentral, northcentralus, uaenorth, westcentralus.

Deux cas d’usage concrets illustrent le potentiel en entreprise. Gulf Air utilise la solution pour permettre à ses dirigeants d’accéder à des données de gestion en temps réel par la voix, transformant la consultation de tableaux de bord statiques en interaction conversationnelle. Sutherland l’applique dans le secteur de la santé pour réduire les interventions manuelles sur les vérifications de statut et les suivis de refus de remboursement.

La limite principale à retenir : aucun SLA n’est garanti en phase de preview. Un déploiement en production n’est pas recommandé à ce stade.

Conclusion

Les Voice Native Agents dans Microsoft Azure AI Foundry s’adressent dès aujourd’hui aux équipes qui veulent prototyper des agents vocaux IA sans assembler manuellement une chaîne STT/LLM/TTS. La disponibilité en région francecentral et la compatibilité avec l’API Azure OpenAI Realtime existante en font une option viable pour les environnements européens dès l’évaluation. L’absence de SLA et la dépréciation du quickstart classique en août 2026 sont les deux points à surveiller pour ceux qui ont déjà commencé à construire sur l’ancienne intégration.

Sources

Microsoft - Techcommunity

Microsoft Learn - Voice Live API

Microsoft Learn - Voice Live Agents Quickstart

Microsoft Learn - Régions supportées Voice Live

Microsoft Learn - Classic Quickstart (déprécié)

Avez-vous apprécié cet article ? Vous avez des questions, commentaires ou suggestions, n’hésitez pas à m’envoyer un message depuis le formulaire de contact.

N’oubliez pas de nous suivre et de partager cet article.

Tags :

Près de 70% des entreprises du Fortune 500 utilisent Copilot

Maxime Hiez
Copilot
20 Nov, 2024

Introduction Lors de l'événement Microsoft Ignite 2024, Microsoft a mis en lumière les raisons pour lesquelles près de 70% des entreprises du Fortune 500 utilisent désormais Microsoft 365

Agents vocaux natifs dans Foundry en Public Preview

Introduction

Architecture : Voice Live API et Foundry Agent Service

Modèles supportés et capacités vocales

Mise en place et prérequis

Disponibilité régionale et limites de la preview

Conclusion

Sources

Tags :

Share :

Related Posts