OpenAI GPT-Realtime-2 : nouveaux modèles vocaux pour agents IA

OpenAI lance trois nouveaux modèles vocaux le 7 mai 2026

Le 7 mai 2026, OpenAI a annoncé trois nouveaux modèles vocaux pour l'API Realtime : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. Ces modèles font passer les agents vocaux IA à un nouveau niveau, avec un raisonnement de classe GPT-5, une traduction en direct entre plus de 70 langues et une transcription en streaming.

Pour les entreprises qui utilisent un agent téléphonique IA, cela signifie des temps d'attente plus courts, de meilleures conversations multilingues et des agents capables de gérer des tâches plus complexes de manière autonome. Dans cet article : ce que fait chaque modèle, leurs prix et ce que cela signifie pour les clients Heyloha.

GPT-Realtime-2 : un modèle vocal qui raisonne

GPT-Realtime-2 est le premier modèle vocal d'OpenAI avec un raisonnement de classe GPT-5. Il peut gérer des demandes complexes, appeler des outils en parallèle et poursuivre la conversation naturellement pendant qu'il réfléchit. La fenêtre de contexte est passée de 32 000 à 128 000 tokens, permettant des sessions plus longues et plus cohérentes.

Quatre innovations se distinguent. L'effort de raisonnement ajustable (minimal, low, medium, high, xhigh) permet d'équilibrer la latence et la complexité. Les préambules permettent à l'agent de dire de courtes phrases comme 'un instant' avant de commencer. Les appels d'outils parallèles avec retour audio ('je consulte votre agenda') maintiennent les conversations fluides. Une meilleure compréhension du domaine signifie que la terminologie médicale, les noms propres et le jargon sont mieux conservés.

OpenAI rapporte des scores 15,2 % plus élevés sur Big Bench Audio par rapport à GPT-Realtime-1.5 et 13,8 % plus élevés sur Audio MultiChallenge. Zillow, un utilisateur précoce, a rapporté une amélioration de 26 points du taux de réussite des appels (95 % contre 69 %) sur leur benchmark le plus difficile.

GPT-Realtime-Translate : traduction en direct dans plus de 70 langues

GPT-Realtime-Translate traduit la parole en temps réel depuis plus de 70 langues d'entrée vers 13 langues de sortie. Deux personnes peuvent chacune parler dans leur langue préférée et entendre l'autre dans leur langue préférée. Le modèle produit également des transcriptions en direct pendant la conversation.

Cas d'usage : service client multilingue, ventes transfrontalières, éducation en ligne, événements et plateformes de streaming pour audiences mondiales. BolnaAI a rapporté des Word Error Rates 12,5 % plus faibles pour le hindi, le tamoul et le télougou par rapport aux autres modèles testés. Deutsche Telekom teste le modèle pour le support client où les clients peuvent parler dans la langue avec laquelle ils sont le plus à l'aise.

GPT-Realtime-Whisper : transcription en streaming à faible latence

GPT-Realtime-Whisper est un nouveau modèle de speech-to-text en streaming. Il transcrit la parole pendant qu'une personne parle, avec une latence ajustable. Des réglages plus bas produisent des transcriptions partielles plus rapides ; des réglages plus élevés améliorent la qualité de la transcription.

Applications pratiques : sous-titrage en direct pour réunions et événements, notes qui suivent les conversations, agents vocaux qui suivent l'utilisateur en continu et workflows de suivi plus rapides dans le service client, la santé et la vente.

Trois nouveaux modèles pour la voix IA

OpenAI identifie trois modèles autour desquels les développeurs construisent maintenant. Voice-to-action : l'utilisateur décrit ce qu'il veut et le système raisonne, utilise des outils et accomplit la tâche. Zillow construit un assistant qui répond à des demandes comme 'trouve des maisons dans mon budget, évite les rues fréquentées et planifie une visite samedi'.

Systems-to-voice : le logiciel transforme le contexte en guidance vocale en direct. Une application de voyage peut dire de manière proactive : 'votre vol entrant est retardé, mais vous pouvez encore prendre votre correspondance. La nouvelle porte est X, l'itinéraire le plus rapide est Y'.

Voice-to-voice : l'IA aide les conversations en direct à se poursuivre au-delà des barrières linguistiques. Deutsche Telekom construit un support vocal où les clients peuvent parler dans leur langue préférée et le modèle traduit en temps réel.

Ce que cela signifie pour les clients Heyloha

Heyloha fonctionne sur l'API OpenAI Realtime depuis mars 2026. L'agent téléphonique de Heyloha utilise déjà la version de production de la technologie vocale d'OpenAI, avec des réponses rapides, une intonation naturelle et une détection automatique de la langue.

GPT-Realtime-2 est maintenant sur notre roadmap. Nous évaluons le modèle sur la qualité, la latence et le coût avant de le déployer auprès des clients. Le raisonnement amélioré et la fenêtre de contexte plus grande conviennent parfaitement aux conversations qui nécessitent plusieurs étapes, comme prendre des rendez-vous ou répondre à des questions produits complexes.

Pour la traduction en direct, nous regardons GPT-Realtime-Translate comme complément au chat multilingue existant. Heyloha prend déjà en charge 5 langues de plateforme et la détection automatique de la langue. Avec ce modèle, la voix multilingue fluide devient une prochaine étape réaliste.

Tarifs et disponibilité

GPT-Realtime-2 coûte 32 dollars par million de tokens audio en entrée (0,40 dollar pour l'entrée mise en cache) et 64 dollars par million de tokens audio en sortie. GPT-Realtime-Translate coûte 0,034 dollar par minute. GPT-Realtime-Whisper coûte 0,017 dollar par minute.

Les trois modèles sont disponibles via l'API OpenAI Realtime. L'API Realtime prend en charge la résidence des données UE pour les applications européennes. Les clients Heyloha ne paient pas OpenAI directement : les forfaits Heyloha sont tout compris et les coûts d'agent sont inclus. Consultez les tarifs pour un aperçu.

Questions fréquentes

Qu'est-ce que GPT-Realtime-2 ? GPT-Realtime-2 est le modèle vocal d'OpenAI pour les agents IA avec un raisonnement de classe GPT-5, une fenêtre de contexte de 128 000 tokens et un effort de raisonnement ajustable. Il a été annoncé le 7 mai 2026.

Quelle est la différence entre GPT-Realtime-2 et Whisper ? GPT-Realtime-2 est un modèle speech-to-speech qui écoute, raisonne et répond. GPT-Realtime-Whisper est un modèle speech-to-text qui transcrit sans répondre. Utilisez Realtime-2 pour un agent téléphonique, Whisper pour les sous-titres en direct.

Quelles langues GPT-Realtime-Translate prend-il en charge ? GPT-Realtime-Translate traduit plus de 70 langues d'entrée en 13 langues de sortie, dont le néerlandais, l'anglais, l'allemand, le français, l'espagnol et le hindi.

Heyloha utilise-t-il déjà GPT-Realtime-2 ? Heyloha utilise l'API OpenAI Realtime pour l'agent téléphonique depuis mars 2026. GPT-Realtime-2 est actuellement évalué pour une future mise à jour.

Essayez Heyloha

Vous voulez découvrir ce que peut faire un agent vocal IA moderne basé sur l'API Realtime d'OpenAI ? Commencez gratuitement avec Heyloha et appelez votre propre numéro. Aucune carte de crédit nécessaire, agent en ligne en 30 minutes.