Heyloha
Terug naar blog

OpenAI GPT-Realtime-2: nieuwe spraakmodellen voor AI agents

OpenAI lanceerde op 7 mei 2026 drie nieuwe spraakmodellen: GPT-Realtime-2 met GPT-5 redenering, GPT-Realtime-Translate voor live vertaling en GPT-Realtime-Whisper.

Auteur: Heyloha Team

OpenAI lanceert drie nieuwe spraakmodellen op 7 mei 2026

Op 7 mei 2026 kondigde OpenAI drie nieuwe spraakmodellen aan voor de Realtime API: GPT-Realtime-2, GPT-Realtime-Translate en GPT-Realtime-Whisper. Deze modellen tillen AI-spraakagents naar een nieuw niveau, met GPT-5-klasse redenering, live vertaling tussen meer dan 70 talen en streaming transcriptie.

Voor bedrijven die met een AI telefoonagent werken, betekent dit kortere wachttijden, betere meertalige gesprekken en agents die complexere taken zelfstandig kunnen afhandelen. In dit artikel: wat elk model doet, wat de prijzen zijn en wat het voor Heyloha-klanten betekent.

GPT-Realtime-2: een spraakmodel dat redeneert

GPT-Realtime-2 is OpenAI's eerste spraakmodel met GPT-5-klasse redenering. Het kan complexe verzoeken behandelen, tools parallel aanroepen en het gesprek natuurlijk voortzetten terwijl het nadenkt. Het contextvenster is verhoogd van 32.000 naar 128.000 tokens, waardoor langere en samenhangende sessies mogelijk zijn.

Vier vernieuwingen vallen op. Aanpasbare redeneerinspanning (minimal, low, medium, high, xhigh) maakt afweging tussen latency en complexiteit mogelijk. Preambles laten de agent korte zinnen zoals 'momentje' uitspreken voordat hij begint. Parallelle tool calls met audiofeedback ('ik kijk je agenda even na') houden gesprekken vloeiend. Sterker domeinbegrip betekent dat zorgterminologie, eigennamen en jargon beter behouden blijven.

OpenAI rapporteert 15,2% hogere scores op Big Bench Audio dan GPT-Realtime-1.5 en 13,8% hogere scores op Audio MultiChallenge. Zillow, een vroege gebruiker, meldde een verbetering van 26 punten in slagingspercentage van gesprekken (95% versus 69%) op hun moeilijkste benchmark.

GPT-Realtime-Translate: live vertaling tussen meer dan 70 talen

GPT-Realtime-Translate vertaalt spraak in realtime van meer dan 70 invoertalen naar 13 uitvoertalen. Twee mensen kunnen elk in hun eigen taal spreken en de gesprekspartner in zijn voorkeurstaal horen. Het model levert ook live transcripties tijdens het gesprek.

Toepassingen: meertalige klantenservice, internationale verkoopgesprekken, online onderwijs, evenementen en streamingplatforms voor wereldwijde doelgroepen. BolnaAI rapporteerde 12,5% lagere Word Error Rates voor Hindi, Tamil en Telugu vergeleken met andere modellen die zij testten. Deutsche Telekom test het model voor klantondersteuning waarbij klanten kunnen praten in de taal waarin ze zich het meest comfortabel voelen.

GPT-Realtime-Whisper: streaming transcriptie met lage latency

GPT-Realtime-Whisper is een nieuw streaming model voor speech-to-text. Het transcribeert spraak terwijl iemand praat, met aanpasbare latency. Lagere instellingen geven sneller deeltranscripten; hogere instellingen verbeteren de transcriptkwaliteit.

Praktische toepassingen: live ondertiteling voor vergaderingen en evenementen, notulen die meeschrijven tijdens gesprekken, voice agents die continu de gebruiker volgen en snellere follow-up workflows in klantenservice, gezondheidszorg en sales.

Drie nieuwe patronen voor voice AI

OpenAI signaleert drie patronen waar developers nu omheen bouwen. Voice-to-action: de gebruiker beschrijft wat hij wil en het systeem redeneert, gebruikt tools en voltooit de taak. Zillow bouwt bijvoorbeeld een assistent die op verzoeken reageert als 'vind huizen binnen mijn budget, vermijd drukke straten en plan zaterdag een bezichtiging'.

Systems-to-voice: software vertaalt context naar live gesproken begeleiding. Een reisapp kan proactief vertellen: 'je inkomende vlucht heeft vertraging, maar je haalt je aansluiting nog. De nieuwe gate is X, de snelste route is Y'.

Voice-to-voice: AI helpt live gesprekken doorgaan over taalgrenzen heen. Deutsche Telekom bouwt voice support waarbij klanten in hun voorkeurstaal praten en het model realtime vertaalt.

Wat dit betekent voor Heyloha-klanten

Heyloha draait sinds maart 2026 op de OpenAI Realtime API. De telefoonagent van Heyloha gebruikt al de productieversie van OpenAI's spraaktechnologie, met snelle reacties, natuurlijke intonatie en automatische taalherkenning.

GPT-Realtime-2 staat nu op onze roadmap. We evalueren het model op kwaliteit, latency en kosten voordat we het uitrollen naar klanten. De verbeterde redenering en het grotere contextvenster passen perfect bij gesprekken die meerdere stappen vereisen, zoals afspraken inplannen of complexe productvragen beantwoorden.

Voor live vertaling kijken we naar GPT-Realtime-Translate als aanvulling op de bestaande meertalige chat. Heyloha ondersteunt al 5 platformtalen en automatische taalherkenning. Met dit model wordt naadloze meertalige spraak een realistische volgende stap.

Prijzen en beschikbaarheid

GPT-Realtime-2 kost 32 dollar per 1 miljoen audio-invoertokens (0,40 dollar voor cached input) en 64 dollar per 1 miljoen audio-uitvoertokens. GPT-Realtime-Translate kost 0,034 dollar per minuut. GPT-Realtime-Whisper kost 0,017 dollar per minuut.

Alle drie de modellen zijn beschikbaar via de OpenAI Realtime API. De Realtime API ondersteunt EU Data Residency voor Europese applicaties. Heyloha-klanten betalen niet direct OpenAI: de Heyloha-abonnementen zijn all-in en de agentkosten zitten inbegrepen. Bekijk de prijzen voor een overzicht.

Veelgestelde vragen

Wat is GPT-Realtime-2? GPT-Realtime-2 is OpenAI's spraakmodel voor AI-agents met GPT-5-klasse redenering, een contextvenster van 128.000 tokens en aanpasbare redeneerinspanning. Het werd op 7 mei 2026 aangekondigd.

Wat is het verschil tussen GPT-Realtime-2 en Whisper? GPT-Realtime-2 is een spraak-naar-spraak model dat luistert, redeneert en antwoordt. GPT-Realtime-Whisper is een spraak-naar-tekst model dat transcribeert zonder te antwoorden. Voor een belagent gebruik je Realtime-2, voor live ondertiteling Whisper.

Welke talen ondersteunt GPT-Realtime-Translate? GPT-Realtime-Translate vertaalt meer dan 70 invoertalen naar 13 uitvoertalen, waaronder Nederlands, Engels, Duits, Frans, Spaans en Hindi.

Gebruikt Heyloha al GPT-Realtime-2? Heyloha gebruikt sinds maart 2026 de OpenAI Realtime API voor de telefoonagent. GPT-Realtime-2 wordt momenteel geevalueerd voor een volgende update.

Probeer Heyloha

Wil je ervaren wat een moderne AI-spraakagent op basis van OpenAI's Realtime API kan? Start gratis met Heyloha en bel je eigen nummer. Geen creditcard nodig, agent staat in 30 minuten live.