ChatGPT es más potente que nunca: ahora usa audios, imágenes y hasta documentos para pedirle cosas

OpenAI continúa presentando novedades para ChatGPT. En su más reciente actualización, la compañía ha revelado que su chatbot de inteligencia artificial ahora tendrá una nueva interfaz "más intuitiva", además de un nuevo soporte para dar indicaciones usando la voz.

Adicionalmente, será posible mostrarle a la IA una imagen de referencia o fotografía para tener una conversación a partir de ese contenido, para por ejemplo, tomar fotos de lo que hay en la despensa del refrigerador y obtener posibles recetas a preparar.

Hablando con ChatGPT

ChatGPT ya contaba con soporte para indicaciones de voz, pero se limitaba a grabar lo que el usuario decía, procesarlo e ingresarlo en el bloque de texto de su interfaz. Ahora es posible tener una "conversación" casi en tiempo real con el chatbot, ya que, además de escuchar, también cuenta con voz para responder.

En total, ChatGPT incluye cinco voces diferentes que se podrán activar desde la sección "configuración" y "nuevas funciones".

De acuerdo con OpenAI, esta capacidad está impulsada por un nuevo modelo de conversión de texto a voz que puede generar audio "similar al humano" a partir de texto, produciendo en pocos segundos una muestra de voz.

Para este reconocimiento de voz, OpenAI revela que se usa Whisper para transcribir las palabras a texto.

Fotos y hasta documentos para interactuar

El chatbot ahora también puede conversar a partir de imágenes, por lo que es posible solicitar información de alguna fotografía o centrarse en algún elemento específico de la misma gracias a una nueva herramienta de dibujo que integra la app.

Por ejemplo, en el video de demostración se muestra cómo un usuario solicita a ChatGPT ayuda para bajar el asiento de su bicicleta. La IA primero es capaz de indicar qué parte del vehículo debe ajustar y luego, a partir de una fotografía a una caja de herramientas, indicar exactamente qué llave debe usar.

Esta nueva función se puede utilizar tanto en los modelos GPT-3.5 como en GPT-4, siendo capaces de procesar fotografías, capturas de pantalla y hasta documentos con texto e imágenes.

Por lo pronto, OpenAI aclara que el modelo es competente para la transcripción de textos en inglés, pero que cuenta con un rendimiento deficiente en otros idiomas, especialmente en aquellos que no cuentan con escritura romana, por lo que se desaconseja que los usuarios que no hablen inglés utilicen ChatGPT para este fin.

Una implementación gradual

OpenAI también revela que ambas herramientas, la interacción por voz y el uso de imágenes, estarán disponibles gradualmente, primero para los usuarios de sus versiones Plus y Enterprise en las próximas dos semanas, aunque también llegarán a otros grupos, entre ellos los desarrolladores, "poco después".

Eso sí, ya que el nuevo reconocimiento de imágenes funciona en el modelo GPT 3.5, significa que eventualmente esta herramienta llegará para los usuarios que utilizan la versión gratuita.

Hasta ahora Microsoft no lo ha aclarado, pero ambas funciones también podrían llegar a Bing de la misma forma que lo ha hecho recientemente DALL-E 3, al que se puede acceder gratuitamente desde el chatbot, en lugar de tener que pagar ChatGPT Plus para utilizarlo.

Hablando con ChatGPT

Fotos y hasta documentos para interactuar

Una implementación gradual

Recibe "", nuestra newsletter semanal

Explora en nuestros medios