GPT-4o es el nuevo modelo de inteligencia artificial de OpenAI, uno que mejora notablemente en su velocidad de respuesta y es más capaz que sus generaciones anteriores, gracias a un nuevo sistema de procesamiento que le permite analizar entradas de texto, visión y audio simultáneamente.
En esta publicación explicaremos exactamente qué es, en qué elementos destaca y cómo se puede utilizar, ya sea de forma gratuita o de pago, dependiendo de cada usuario.
Qué es GPT-4o
Este es el modelo de inteligencia artificial más reciente de OpenAI, que tiene un nivel de inteligencia similar a GPT-4, pero ahora es más rápido y procesa mejor la información.
Al igual que con GPT-4, esta nueva versión también es multimodal, es decir, tiene soporte para entradas de contenido en texto, audio e imagen. En el caso específico de GPT-4o, por la forma en que procesa la información, puede interactuar de forma "mucho más natural", con tiempos de respuesta similares a los de un humano.
Los modelos como GPT-4o son en realidad el motor detrás de ChatGPT, que actúa como una interfaz amigable para el usuario desde donde se pueden realizar consultas de forma simple, y en cada nueva versión se vuelve más capaz.
Cómo funciona GPT-4o
La nueva versión de la IA tiene un sistema de entrenamiento similar al resto, utilizando una gran cantidad de información que se procesa a través de múltiples algoritmos para enseñarle al modelo cómo debe responder, y cuáles son las respuestas válidas y erróneas que debe considerar, además de las secuencias lógicas para armar textos y resultados.
Para procesar la información, se utiliza un sistema llamado "transformers", que convierte el lenguaje escrito en vectores numéricos para poder ser procesados matemáticamente por una red neuronal. Dicho de otra manera, se transforma el lenguaje escrito en un formato que la IA pueda entender en forma de código.
Para procesar el contenido, suelen utilizarse grandes servidores, como los de la nube Azure de Microsoft, que permiten, gracias a una red de supercomputadoras, entrenar a un determinado modelo en un tiempo relativamente corto, ya que se corren múltiples versiones de un caso o ejemplo en paralelo, lo que permite que la IA aprenda rápidamente los distintos resultados posibles.
Sin embargo, GPT-4o tiene un elemento distintivo. En lugar de procesar el contenido de forma separada, es decir, texto, imagen/vídeo o audio, está diseñado para procesar tanto sus entradas (el contenido ingresado por el usuario) como sus salidas (las respuestas de la IA) en su misma red neuronal.
Cómo puedes utilizar GPT-4o
Al momento de escribir esta publicación, GPT-4o está en proceso de implementación, pero se espera que llegue de forma gratuita, aunque con limitaciones, a ChatGPT.
Esto significa que cualquier usuario podrá hacer uso del nuevo modelo sin pagar, pero únicamente para procesar imagen y texto. En caso de querer utilizar también el modo voz, será necesario pagar la suscripción de ChatGPT Plus.
De momento no se han revelado otras implementaciones, como fue el caso con GPT-4, que estuvo disponible en un plan de suscripción para los usuarios de Duolingo y en Bing, ahora Copilot, tras darse a conocer.
Qué puedes hacer con este modelo de IA
Los usos de este nuevo modelo de IA son múltiples, algunos de ellos fueron dados a conocer por la propia empresa en su demostración en vivo. Por ejemplo, GPT-4o es capaz de tener conversaciones en tiempo real, pero también servir como asistente para resolver ecuaciones paso a paso.
Otros casos de uso mostrados fueron los de ayudar a comprender código de programación, como traductor en tiempo real, narrador de historias o incluso "intérprete" de gestos faciales. Sin embargo, en el sitio web oficial de OpenAI se pueden encontrar más usos de la IA.
Es posible que dos GPT-4o interactúen entre sí y tengan una conversación fluida (algo que durante años se ha intentado hacer con Siri y el asistente de Google), pero también pidiendo a dos IAs que canten una canción en dúo.
El modelo se puede utilizar como apoyo para una entrevista laboral, jugar "Piedra, papel o tijeras" y que actúe como árbitro, tener conversaciones con sarcasmo, o actuar como tutor para resolver problemas matemáticos, o como profesor de idiomas.
También es posible aprovechar las capacidades del asistente para resumir puntos en una videollamada, cantar canciones de cuna, reconocer elementos como mascotas a través de la cámara de un smartphone o actuar como asistente de cliente o guía para una persona con discapacidad visual.
OpenAI también menciona que, al ser su primer modelo que combina estas modalidades, todavía se está "rascando la superficie" para explorar lo que el modelo puede hacer y sus limitaciones, por lo que no sería de extrañar encontrar en el futuro nuevos usos e implementaciones de la IA.