OpenAI lanza el modo de voz avanzado, ya disponible en el Reino Unido

El 24 de septiembre de 2024, OpenAI anunció una mejora significativa de ChatGPT con el lanzamiento de su Modo de Voz Avanzada (AVM) para los suscriptores de los niveles Plus y Team. Se espera que esta innovadora función se extienda a los clientes Enterprise y Edu la semana siguiente, marcando una importante expansión en la accesibilidad de las capacidades conversacionales avanzadas de IA.

El modo de voz avanzado está diseñado para que las interacciones con ChatGPT sean más intuitivas y humanas, ya que permite a la IA responder a señales emocionales y a los usuarios interrumpir a la IA durante las conversaciones. Este lanzamiento incluye la introducción de cinco nuevas voces (Arbor, Maple, Sol, Spruce y Vale), con lo que el número total de voces disponibles asciende a nueve. Estas incorporaciones se unen a Breeze, Juniper, Cove y Ember en una línea que ahora refleja fielmente los elementos naturales, lo que refleja el compromiso de OpenAI de crear comunicaciones digitales más orgánicas y atractivas.

En un cambio de las animaciones iniciales de puntos negros utilizadas para representar la actividad de voz, AVM presenta ahora una dinámica esfera azul animada. Esta actualización visual mejora la experiencia general del usuario haciendo que las interacciones sean visualmente atractivas y más fáciles de seguir. OpenAI ha integrado un sistema de notificaciones en la aplicación ChatGPT en el que una ventana emergente junto al icono de voz avisa a los usuarios cuando AVM está disponible en su cuenta.

Sin embargo, la expansión de AVM al Reino Unido el 28 de septiembre de 2024 fue recibida con reacciones encontradas. Aunque OpenAI anunció que los usuarios de ChatGPT Plus en el Reino Unido ya podían acceder a las nuevas funciones de voz descargando la última versión de la aplicación, algunos usuarios expresaron su descontento con las limitaciones del servicio y su disponibilidad. La función, restringida a los titulares de suscripciones Plus, Team o Enterprise, suscitó un debate más amplio sobre la accesibilidad y la distribución de las nuevas tecnologías. Además, surgieron discusiones sobre una versión jailbreak del modo de voz, lo que pone de manifiesto que un segmento de la base de usuarios busca acceso sin restricciones a estas funciones.

En la nueva versión no se han incluido las funciones de vídeo y pantalla compartida que OpenAI presentó a principios de año. Diseñadas para el modelo GPT-4o, estas funciones permiten a la IA procesar simultáneamente datos visuales y sonoros, lo que mejora enormemente su funcionalidad para tareas que requieren datos visuales en tiempo real, como la tutoría o la asistencia en codificación. A pesar del potencial de estas funciones multimodales para revolucionar las interacciones de los usuarios con la IA, OpenAI aún no las ha puesto a disposición del público ni ha facilitado un calendario para su futura integración.

OpenAI ha declarado que, desde la prueba alfa limitada de AVM, se han producido varias mejoras. La función de voz ahora entiende mejor los distintos acentos, y las conversaciones son más fluidas y rápidas. El compromiso de OpenAI con la mejora continua se puso de manifiesto en un reciente post: «Mientras has estado esperando pacientemente, hemos añadido instrucciones personalizadas, memoria, cinco nuevas voces y acentos mejorados. También puede decir ‘Siento llegar tarde’ en más de 50 idiomas».

Este desarrollo refleja la capacidad de respuesta de OpenAI a los comentarios de los usuarios y a la evolución de las necesidades del mercado. La introducción de AVM no sólo mejora las capacidades funcionales de ChatGPT, sino que también responde a preocupaciones más amplias sobre la accesibilidad y usabilidad de las tecnologías de IA.

A medida que la IA sigue impregnando diversos aspectos de la vida cotidiana, las innovaciones de OpenAI como AVM ayudan a allanar el camino para aplicaciones de IA más sofisticadas, accesibles y fáciles de usar. A pesar de los retos y los debates en curso sobre la ética y la accesibilidad de la IA, los esfuerzos de OpenAI por mejorar y ampliar su oferta demuestran un claro compromiso con el avance de este campo y la mejora de la experiencia del usuario de IA. De cara al futuro, el potencial de futuras integraciones de capacidades multimodales y un acceso más amplio a funciones avanzadas promete transformar aún más la forma en que las personas y las empresas interactúan con las tecnologías de IA.