ChatGPT ya puede hablar como una persona normal gracias a GPT-4o, pero no todos lo podrán usar

Chatgpt Microfono Voz
Sin comentarios Facebook Twitter Flipboard E-mail

En mayo de 2024, OpenAI reveló su modelo de inteligencia artificial GPT-4o, mucho más capaz que versiones anteriores, gracias en gran medida a un nuevo sistema de procesamiento que le permite analizar simultáneamente entradas de texto, visión y audio en una versión multimodal. Tras meses de espera y después de varios retrasos, la compañía finalmente ha lanzado este modo de voz.

Esta nueva función de audio hace que hablar con ChatGPT sea mucho más natural y presenta mejoras respecto a lo visto en su demostración, como mayor velocidad, fluidez e incluso optimizaciones en los acentos en algunos idiomas extranjeros.

De acuerdo con OpenAI, su "modo de voz avanzado" (AVM, por sus siglas en inglés) llegará inicialmente a sus clientes de las versiones de pago de ChatGPT, es decir, a los niveles Plus o Teams, aunque también se espera que esté disponible para los usuarios de Enterprise y Edu en los próximos días, con un despliegue que comenzó hace meses en modo alfa para algunas personas.

Así funciona el modo de voz avanzado

El AVM llega con múltiples cambios respecto a lo mostrado en su presentación. Ahora cuenta con un diseño renovado que se aprecia principalmente en su interfaz. En lugar de puntos negros o blancos animados, se ha incluido una esfera azul animada cuando escucha.

Cabe recordar que ChatGPT ya contaba en su aplicación con un modo de voz, no avanzado, que permitía seleccionar entre varios tipos de voz para interactuar sin la necesidad de escribir, pero este método funcionaba únicamente por turnos, es decir, el chatbot hablaba o escuchaba.

Ahora, la diferencia es que ChatGPT, en su modo de voz avanzado, se encuentra en escucha constante, lo que permite interrumpir una respuesta como si se tratara de una conversación con otra persona. Esto facilita solicitar cambios en una instrucción, agregar información o ajustar la respuesta del chatbot.

Chatgpt Interfaz Voz La interfaz de voz "no avanzada" de ChatGPT

Al igual que en el modo de voz tradicional, a esta funcionalidad se puede acceder gracias a un botón junto al cajón de texto, que los usuarios de pago podrán ver gracias a una nueva notificación en la aplicación.

Las voces de ChatGPT

El modo de voz avanzado incluye también cinco nuevas voces que los usuarios podrán probar: Arbor, Maple, Sol, Spruce y Vale, todas con diferentes características de entonación y tipo de respuestas generadas, adaptándose a las preferencias de cada usuario.

Sin embargo, hay una voz que no ha sido incluida: la de Sky. Esta voz, recordemos, se utilizó durante la demostración de primavera de OpenAI y tenía un gran parecido con la voz de Scarlett Johansson, lo que derivó en una amenaza de demanda por parte de la actriz y que eventualmente obligó a la compañía a retirarla.

De momento, en el AVM también faltan otras características mostradas en la demostración, como la función de compartir pantalla y video en tiempo real con ChatGPT para que este pueda procesar tanto en formato visual como audible. Actualmente, no hay un cronograma por parte de la compañía sobre cuándo será lanzada esta capacidad.

Un despliegue en proceso

Aunque OpenAI no detalla exactamente dónde está disponible la nueva función AVM de ChatGPT, es probable que México sea uno de los países incluidos en el despliegue, ya que las suscripciones Plus, Team y Enterprise se pueden adquirir en el país.

OpenAI también ha indicado que el AVM no está disponible en varias regiones, entre ellas la Unión Europea, Reino Unido, Suiza, Islandia, Noruega y Liechtenstein.

Inicio