OpenAI GPT-Realtime-2: neue Sprachmodelle für KI-Agenten
OpenAI hat am 7. Mai 2026 drei neue Sprachmodelle eingeführt: GPT-Realtime-2 mit GPT-5-Reasoning, GPT-Realtime-Translate für Live-Übersetzung und GPT-Realtime-Whisper.
Autor: Heyloha Team
OpenAI führt drei neue Sprachmodelle am 7. Mai 2026 ein
Am 7. Mai 2026 hat OpenAI drei neue Sprachmodelle für die Realtime API angekündigt: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Diese Modelle heben KI-Sprachagenten auf ein neues Niveau, mit Reasoning der GPT-5-Klasse, Live-Übersetzung zwischen mehr als 70 Sprachen und Streaming-Transkription.
Für Unternehmen, die einen KI-Telefonagenten einsetzen, bedeutet das kürzere Wartezeiten, bessere mehrsprachige Gespräche und Agenten, die komplexere Aufgaben autonom bewältigen können. In diesem Artikel: was jedes Modell macht, was es kostet und was es für Heyloha-Kunden bedeutet.
GPT-Realtime-2: ein Sprachmodell, das denkt
GPT-Realtime-2 ist OpenAIs erstes Sprachmodell mit Reasoning der GPT-5-Klasse. Es kann komplexe Anfragen bearbeiten, Tools parallel aufrufen und das Gespräch natürlich fortsetzen, während es nachdenkt. Das Kontextfenster wurde von 32.000 auf 128.000 Tokens vergrößert, was längere und kohärentere Sitzungen ermöglicht.
Vier Neuerungen stechen heraus. Anpassbarer Reasoning-Aufwand (minimal, low, medium, high, xhigh) ermöglicht die Abwägung zwischen Latenz und Komplexität. Preambles lassen den Agenten kurze Sätze wie 'einen Moment' sagen, bevor er beginnt. Parallele Tool-Aufrufe mit Audio-Feedback ('ich prüfe Ihren Kalender') halten Gespräche fließend. Besseres Domänenverständnis bedeutet, dass medizinische Terminologie, Eigennamen und Fachjargon besser erhalten bleiben.
OpenAI berichtet 15,2 % höhere Werte bei Big Bench Audio im Vergleich zu GPT-Realtime-1.5 und 13,8 % höhere Werte bei Audio MultiChallenge. Zillow, ein früher Nutzer, meldete eine Verbesserung von 26 Punkten bei der Erfolgsquote von Anrufen (95 % gegenüber 69 %) bei ihrem schwierigsten Benchmark.
GPT-Realtime-Translate: Live-Übersetzung in mehr als 70 Sprachen
GPT-Realtime-Translate übersetzt Sprache in Echtzeit von mehr als 70 Eingangssprachen in 13 Ausgangssprachen. Zwei Personen können jeweils in ihrer bevorzugten Sprache sprechen und einander in ihrer bevorzugten Sprache hören. Das Modell liefert auch Live-Transkripte während des Gesprächs.
Anwendungsfälle: mehrsprachiger Kundenservice, grenzüberschreitende Verkaufsgespräche, Online-Bildung, Veranstaltungen und Streaming-Plattformen für globale Zielgruppen. BolnaAI berichtete 12,5 % niedrigere Word Error Rates für Hindi, Tamil und Telugu im Vergleich zu anderen getesteten Modellen. Deutsche Telekom testet das Modell für Kundensupport, bei dem Kunden in der Sprache sprechen können, in der sie sich am wohlsten fühlen.
GPT-Realtime-Whisper: Streaming-Transkription mit niedriger Latenz
GPT-Realtime-Whisper ist ein neues Streaming-Speech-to-Text-Modell. Es transkribiert Sprache, während jemand spricht, mit einstellbarer Latenz. Niedrigere Einstellungen erzeugen schnellere Teil-Transkripte; höhere Einstellungen verbessern die Transkriptqualität.
Praktische Anwendungen: Live-Untertitel für Meetings und Veranstaltungen, Notizen, die Gesprächen folgen, Sprachagenten, die den Nutzer kontinuierlich verfolgen, und schnellere Folge-Workflows in Kundenservice, Gesundheitswesen und Vertrieb.
Drei neue Muster für Voice AI
OpenAI identifiziert drei Muster, um die Entwickler nun bauen. Voice-to-Action: Der Nutzer beschreibt, was er will, und das System denkt nach, nutzt Tools und schließt die Aufgabe ab. Zillow baut einen Assistenten, der auf Anfragen wie 'finde Häuser in meinem Budget, vermeide stark befahrene Straßen und plane am Samstag eine Besichtigung' reagiert.
Systems-to-Voice: Software wandelt Kontext in Live-Sprachführung um. Eine Reise-App kann proaktiv sagen: 'Ihr ankommender Flug hat Verspätung, aber Sie schaffen den Anschluss noch. Das neue Gate ist X, der schnellste Weg ist Y'.
Voice-to-Voice: KI hilft Live-Gesprächen, Sprachbarrieren zu überwinden. Deutsche Telekom baut Sprach-Support, bei dem Kunden in ihrer bevorzugten Sprache sprechen können und das Modell in Echtzeit übersetzt.
Was das für Heyloha-Kunden bedeutet
Heyloha läuft seit März 2026 auf der OpenAI Realtime API. Der Telefonagent von Heyloha nutzt bereits die Produktionsversion von OpenAIs Sprachtechnologie, mit schnellen Reaktionen, natürlicher Intonation und automatischer Spracherkennung.
GPT-Realtime-2 steht jetzt auf unserer Roadmap. Wir evaluieren das Modell hinsichtlich Qualität, Latenz und Kosten, bevor wir es an Kunden ausrollen. Das verbesserte Reasoning und das größere Kontextfenster passen perfekt zu Gesprächen, die mehrere Schritte erfordern, wie das Buchen von Terminen oder die Beantwortung komplexer Produktfragen.
Für Live-Übersetzung schauen wir uns GPT-Realtime-Translate als Ergänzung zum bestehenden mehrsprachigen Chat an. Heyloha unterstützt bereits 5 Plattformsprachen und automatische Spracherkennung. Mit diesem Modell wird nahtlose mehrsprachige Sprache zum realistischen nächsten Schritt.
Preise und Verfügbarkeit
GPT-Realtime-2 kostet 32 USD pro 1 Million Audio-Eingabe-Tokens (0,40 USD für zwischengespeicherte Eingabe) und 64 USD pro 1 Million Audio-Ausgabe-Tokens. GPT-Realtime-Translate kostet 0,034 USD pro Minute. GPT-Realtime-Whisper kostet 0,017 USD pro Minute.
Alle drei Modelle sind über die OpenAI Realtime API verfügbar. Die Realtime API unterstützt EU-Datenresidenz für europäische Anwendungen. Heyloha-Kunden zahlen nicht direkt an OpenAI: Heyloha-Tarife sind All-in und Agentkosten sind enthalten. Sehen Sie die Preise für eine Übersicht.
Häufig gestellte Fragen
Was ist GPT-Realtime-2? GPT-Realtime-2 ist OpenAIs Sprachmodell für KI-Agenten mit Reasoning der GPT-5-Klasse, einem Kontextfenster von 128.000 Tokens und anpassbarem Reasoning-Aufwand. Es wurde am 7. Mai 2026 angekündigt.
Was ist der Unterschied zwischen GPT-Realtime-2 und Whisper? GPT-Realtime-2 ist ein Speech-to-Speech-Modell, das zuhört, denkt und antwortet. GPT-Realtime-Whisper ist ein Speech-to-Text-Modell, das transkribiert, ohne zu antworten. Für einen Telefonagenten verwenden Sie Realtime-2, für Live-Untertitel Whisper.
Welche Sprachen unterstützt GPT-Realtime-Translate? GPT-Realtime-Translate übersetzt mehr als 70 Eingangssprachen in 13 Ausgangssprachen, darunter Niederländisch, Englisch, Deutsch, Französisch, Spanisch und Hindi.
Nutzt Heyloha bereits GPT-Realtime-2? Heyloha nutzt die OpenAI Realtime API für den Telefonagenten seit März 2026. GPT-Realtime-2 wird derzeit für ein zukünftiges Update evaluiert.
Heyloha ausprobieren
Möchten Sie erleben, was ein moderner KI-Sprachagent auf Basis der OpenAI Realtime API kann? Starten Sie kostenlos mit Heyloha und rufen Sie Ihre eigene Nummer an. Keine Kreditkarte erforderlich, Agent in 30 Minuten live.