OpenAI continúa presentando novedades para ChatGPT. En su más reciente actualización, la compañía ha revelado que su chatbot de inteligencia artificial ahora tendrá una nueva interfaz "más intuitiva", además de un nuevo soporte para dar indicaciones usando la voz.
Adicionalmente, será posible mostrarle a la IA una imagen de referencia o fotografía para tener una conversación a partir de ese contenido, para por ejemplo, tomar fotos de lo que hay en la despensa del refrigerador y obtener posibles recetas a preparar.
Hablando con ChatGPT
ChatGPT ya contaba con soporte para indicaciones de voz, pero se limitaba a grabar lo que el usuario decía, procesarlo e ingresarlo en el bloque de texto de su interfaz. Ahora es posible tener una "conversación" casi en tiempo real con el chatbot, ya que, además de escuchar, también cuenta con voz para responder.
En total, ChatGPT incluye cinco voces diferentes que se podrán activar desde la sección "configuración" y "nuevas funciones".
Use your voice to engage in a back-and-forth conversation with ChatGPT. Speak with it on the go, request a bedtime story, or settle a dinner table debate.
— OpenAI (@OpenAI) September 25, 2023
Sound on 🔊 pic.twitter.com/3tuWzX0wtS
De acuerdo con OpenAI, esta capacidad está impulsada por un nuevo modelo de conversión de texto a voz que puede generar audio "similar al humano" a partir de texto, produciendo en pocos segundos una muestra de voz.
Para este reconocimiento de voz, OpenAI revela que se usa Whisper para transcribir las palabras a texto.
Fotos y hasta documentos para interactuar
El chatbot ahora también puede conversar a partir de imágenes, por lo que es posible solicitar información de alguna fotografía o centrarse en algún elemento específico de la misma gracias a una nueva herramienta de dibujo que integra la app.
Por ejemplo, en el video de demostración se muestra cómo un usuario solicita a ChatGPT ayuda para bajar el asiento de su bicicleta. La IA primero es capaz de indicar qué parte del vehículo debe ajustar y luego, a partir de una fotografía a una caja de herramientas, indicar exactamente qué llave debe usar.
ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023
Esta nueva función se puede utilizar tanto en los modelos GPT-3.5 como en GPT-4, siendo capaces de procesar fotografías, capturas de pantalla y hasta documentos con texto e imágenes.
Por lo pronto, OpenAI aclara que el modelo es competente para la transcripción de textos en inglés, pero que cuenta con un rendimiento deficiente en otros idiomas, especialmente en aquellos que no cuentan con escritura romana, por lo que se desaconseja que los usuarios que no hablen inglés utilicen ChatGPT para este fin.
Una implementación gradual
OpenAI también revela que ambas herramientas, la interacción por voz y el uso de imágenes, estarán disponibles gradualmente, primero para los usuarios de sus versiones Plus y Enterprise en las próximas dos semanas, aunque también llegarán a otros grupos, entre ellos los desarrolladores, "poco después".
Eso sí, ya que el nuevo reconocimiento de imágenes funciona en el modelo GPT 3.5, significa que eventualmente esta herramienta llegará para los usuarios que utilizan la versión gratuita.
Hasta ahora Microsoft no lo ha aclarado, pero ambas funciones también podrían llegar a Bing de la misma forma que lo ha hecho recientemente DALL-E 3, al que se puede acceder gratuitamente desde el chatbot, en lugar de tener que pagar ChatGPT Plus para utilizarlo.