Heyloha
Volver al blog

OpenAI GPT-Realtime-2: nuevos modelos de voz para agentes IA

OpenAI lanzó 3 nuevos modelos de voz el 7 de mayo de 2026: GPT-Realtime-2 con razonamiento GPT-5, GPT-Realtime-Translate para traducción en directo y GPT-Realtime-Whisper.

Autor: Heyloha Team

OpenAI lanza tres nuevos modelos de voz el 7 de mayo de 2026

El 7 de mayo de 2026, OpenAI anunció tres nuevos modelos de voz para la API Realtime: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. Estos modelos llevan a los agentes de voz IA a un nuevo nivel, con razonamiento de clase GPT-5, traducción en directo entre más de 70 idiomas y transcripción en streaming.

Para empresas que usan un agente telefónico IA, esto significa tiempos de espera más cortos, mejores conversaciones multilingües y agentes capaces de manejar tareas más complejas de forma autónoma. En este artículo: lo que hace cada modelo, sus precios y lo que significa para los clientes de Heyloha.

GPT-Realtime-2: un modelo de voz que razona

GPT-Realtime-2 es el primer modelo de voz de OpenAI con razonamiento de clase GPT-5. Puede manejar peticiones complejas, llamar herramientas en paralelo y continuar la conversación de forma natural mientras piensa. La ventana de contexto se ha aumentado de 32.000 a 128.000 tokens, permitiendo sesiones más largas y coherentes.

Cuatro innovaciones destacan. El esfuerzo de razonamiento ajustable (minimal, low, medium, high, xhigh) permite equilibrar latencia y complejidad. Los preámbulos permiten al agente decir frases cortas como 'un momento' antes de empezar. Las llamadas a herramientas en paralelo con feedback de audio ('estoy revisando tu agenda') mantienen las conversaciones fluidas. Una mejor comprensión del dominio significa que la terminología médica, los nombres propios y la jerga se conservan mejor.

OpenAI reporta puntuaciones 15,2 % más altas en Big Bench Audio frente a GPT-Realtime-1.5 y 13,8 % más altas en Audio MultiChallenge. Zillow, un usuario temprano, reportó una mejora de 26 puntos en la tasa de éxito de llamadas (95 % frente a 69 %) en su benchmark más difícil.

GPT-Realtime-Translate: traducción en directo entre más de 70 idiomas

GPT-Realtime-Translate traduce el habla en tiempo real desde más de 70 idiomas de entrada a 13 idiomas de salida. Dos personas pueden hablar cada una en su idioma preferido y escuchar al otro en su idioma preferido. El modelo también produce transcripciones en directo durante la conversación.

Casos de uso: atención al cliente multilingüe, ventas transfronterizas, educación en línea, eventos y plataformas de streaming para audiencias globales. BolnaAI reportó un Word Error Rate 12,5 % más bajo para hindi, tamil y telugu frente a otros modelos probados. Deutsche Telekom está probando el modelo para soporte al cliente donde los clientes pueden hablar en el idioma con el que se sienten más cómodos.

GPT-Realtime-Whisper: transcripción en streaming con baja latencia

GPT-Realtime-Whisper es un nuevo modelo de speech-to-text en streaming. Transcribe el habla mientras alguien habla, con latencia ajustable. Configuraciones más bajas producen transcripciones parciales más rápidas; configuraciones más altas mejoran la calidad de la transcripción.

Aplicaciones prácticas: subtítulos en directo para reuniones y eventos, notas que siguen las conversaciones, agentes de voz que siguen al usuario continuamente y flujos de seguimiento más rápidos en atención al cliente, salud y ventas.

Tres nuevos patrones para Voice AI

OpenAI identifica tres patrones alrededor de los cuales los desarrolladores construyen ahora. Voice-to-action: el usuario describe lo que quiere y el sistema razona, usa herramientas y completa la tarea. Zillow está construyendo un asistente que responde a peticiones como 'encuentra casas dentro de mi presupuesto, evita calles transitadas y reserva una visita el sábado'.

Systems-to-voice: el software convierte el contexto en guía hablada en directo. Una app de viajes puede decir proactivamente: 'tu vuelo de llegada está retrasado, pero aún puedes hacer tu conexión. La nueva puerta es X, la ruta más rápida es Y'.

Voice-to-voice: la IA ayuda a continuar las conversaciones en directo a través de barreras idiomáticas. Deutsche Telekom está construyendo soporte por voz donde los clientes pueden hablar en su idioma preferido y el modelo traduce en tiempo real.

Qué significa esto para los clientes de Heyloha

Heyloha funciona sobre la API OpenAI Realtime desde marzo 2026. El agente telefónico de Heyloha ya utiliza la versión de producción de la tecnología de voz de OpenAI, con respuestas rápidas, entonación natural y detección automática de idioma.

GPT-Realtime-2 está ahora en nuestra hoja de ruta. Estamos evaluando el modelo en calidad, latencia y coste antes de desplegarlo a los clientes. El razonamiento mejorado y la ventana de contexto más grande encajan perfectamente con conversaciones que requieren múltiples pasos, como reservar citas o responder preguntas complejas de productos.

Para traducción en directo, estamos analizando GPT-Realtime-Translate como complemento al chat multilingüe existente. Heyloha ya soporta 5 idiomas de plataforma y detección automática de idioma. Con este modelo, la voz multilingüe fluida se convierte en un siguiente paso realista.

Precios y disponibilidad

GPT-Realtime-2 cuesta 32 dólares por 1 millón de tokens de audio de entrada (0,40 dólares por entrada en caché) y 64 dólares por 1 millón de tokens de audio de salida. GPT-Realtime-Translate cuesta 0,034 dólares por minuto. GPT-Realtime-Whisper cuesta 0,017 dólares por minuto.

Los tres modelos están disponibles vía la API OpenAI Realtime. La API Realtime soporta residencia de datos UE para aplicaciones europeas. Los clientes de Heyloha no pagan a OpenAI directamente: los planes de Heyloha son todo incluido y los costes de agente están incluidos. Consulta los precios para ver un resumen.

Preguntas frecuentes

¿Qué es GPT-Realtime-2? GPT-Realtime-2 es el modelo de voz de OpenAI para agentes de IA con razonamiento de clase GPT-5, una ventana de contexto de 128.000 tokens y esfuerzo de razonamiento ajustable. Se anunció el 7 de mayo de 2026.

¿Cuál es la diferencia entre GPT-Realtime-2 y Whisper? GPT-Realtime-2 es un modelo speech-to-speech que escucha, razona y responde. GPT-Realtime-Whisper es un modelo speech-to-text que transcribe sin responder. Usa Realtime-2 para un agente telefónico, Whisper para subtítulos en directo.

¿Qué idiomas soporta GPT-Realtime-Translate? GPT-Realtime-Translate traduce más de 70 idiomas de entrada a 13 idiomas de salida, incluyendo neerlandés, inglés, alemán, francés, español e hindi.

¿Heyloha ya usa GPT-Realtime-2? Heyloha utiliza la API OpenAI Realtime para el agente telefónico desde marzo de 2026. GPT-Realtime-2 está siendo evaluado actualmente para una futura actualización.

Prueba Heyloha

¿Quieres experimentar lo que puede hacer un agente de voz IA moderno basado en la API Realtime de OpenAI? Empieza gratis con Heyloha y llama a tu propio número. No necesitas tarjeta de crédito, agente en línea en 30 minutos.