El generador de imágenes de ChatGPT ya razona: puede crear contenido que hasta ahora era prácticamente imposible

El razonamiento sigue implementándose en más productos de OpenAI. Primero lo hizo en sus chatbots y ahora también en sus modelos de generación de imágenes, lo que permite obtener una variante multimodal nativa capaz de generar resultados "fotorrealistas, precisos y exactos".

Según la compañía, este nuevo generador de imágenes está integrado directamente en GPT-4o, lo que permite la creación de contenido "útil". A diferencia de otros modelos actuales, que pueden crear escenas "surrealistas e impresionantes", OpenAI afirma que estos tienen dificultades para generar imágenes cotidianas con los elementos precisos necesarios para transmitir un significado correcto y utilizar los símbolos adecuados.

Una de las principales características de este nuevo modelo dentro de GPT-4o es su capacidad para representar texto con precisión y seguir instrucciones detalladas. También aprovecha el conocimiento y contexto del chat, lo que le permite transformar imágenes cargadas por el usuario o utilizarlas como inspiración visual.

La compañía señala que esto permite generar imágenes de manera exacta, con una representación adecuada de los elementos visuales, logrando resultados "prácticos, precisos y potentes".

Las características de este generador de imágenes

OpenAI explica que su modelo ha sido entrenado con una distribución conjunta de imágenes y texto en línea, lo que le permite comprender no solo la relación entre imágenes y lenguaje, sino también cómo interactúan entre sí. Además, gracias a un "entrenamiento posterior intensivo", el modelo ha desarrollado una "fluidez visual sorprendente", lo que le permite generar imágenes útiles, coherentes y contextuales.

Gracias a estas mejoras, GPT-4o puede producir imágenes que no solo incluyan palabras y símbolos precisos, sino que también permitan generar elementos como apuntes en una pizarra descrita en los prompts, ilustraciones para cómics o contenido científico.

El prompt no solo incluye detalles sobre el estilo de la imagen, sino también el texto que se debe incluir

Además, el nuevo modelo de OpenAI es capaz de generar contenido con transparencia, similar a un archivo PNG, y ofrece consistencia en distintos estilos de dibujo y texto. También puede crear recetas ilustradas, infografías y carteles educativos.

Este modelo permite trabajar con distintos estilos visuales y transformar imágenes de manera convincente, con resultados fotorrealistas prácticamente indistinguibles de fotografías.

Una de las imágenes que el modelo puede generar

Otra de sus ventajas es que, al estar basado en el razonamiento de GPT-4o, se pueden realizar refinamientos mediante conversaciones naturales. El chatbot puede aprovechar las imágenes y el texto compartidos en el chat para mantener la coherencia a lo largo de distintas iteraciones o ajustes mientras se perfecciona el resultado.

Asimismo, la generación de imágenes con GPT-4o puede seguir instrucciones detalladas con gran precisión, para manejar hasta 20 objetos en la misma imagen y mientras asegura que todos mantengan características similares para lograr un mejor control de la composición.

Las iteraciones del contenido. A la izquierda la solicitud inicial, y la segunda, su integración con más elementos

Al igual que otras inteligencias artificiales, este modelo puede analizar imágenes cargadas por el usuario y tomar referencias de ellas para integrarlas en un nuevo contenido. También es capaz de combinar elementos preexistentes con contenido generado, creando resultados más personalizados.

No obstante, OpenAI reconoce que su modelo "no es perfecto". Puede presentar problemas como recortar contenido fuera del lienzo, generar alucinaciones, representar con imprecisión demasiados elementos simultáneamente o producir gráficos con errores.

Más elementos generados por la IA integrados en una segunda interacción

Seguridad y disponibilidad de este modelo en GPT-4o

En términos de seguridad, OpenAI asegura que su modelo está diseñado principalmente para aplicaciones como el desarrollo de videojuegos, exploración histórica y educación, sin descuidar la protección contra usos indebidos. Para ello, implementa bloqueos en solicitudes que infringen sus estándares.

Para garantizar la trazabilidad del contenido generado, todas las imágenes creadas con este modelo incluyen metadatos C2PA, que las identifican como provenientes de GPT-4o. Además, la compañía ha desarrollado una herramienta interna de búsqueda para verificar si un contenido fue generado con este modelo.

OpenAI también prohíbe la generación de imágenes que violen sus políticas de contenido, incluyendo materiales de abuso infantil o deepfakes sexuales. Cuando se utilizan imágenes de personas reales, existen restricciones adicionales para evitar la creación de contenido con desnudez o violencia gráfica.

Este nuevo modelo ya está disponible para los usuarios de los planes Plus, Pro, Team y Free como generador de imágenes predeterminado dentro de ChatGPT. Próximamente, llegará a los planes Enterprise y Edu, así como a Sora y DALL·E GPT, una variante dedicada dentro de DALL·E.

Las características de este generador de imágenes

Seguridad y disponibilidad de este modelo en GPT-4o

RECIBE "", NUESTRA NEWSLETTER SEMANAL

Explora en nuestros medios