NVIDIA no solo sabe fabricar GPUs, también puede crear una IA que compite con GPT-4o, Llama y Gemini Pro

Nvidia Robot Ia 01
Sin comentarios Facebook Twitter Flipboard E-mail

Que NVIDIA está detrás de muchos de los avances en inteligencia artificial no es un secreto, gracias a componentes como sus GPUs diseñadas para centros de datos, principalmente las H100 o las B200. Ahora, la compañía ha ingresado a un nuevo sector: el desarrollo de modelos de lenguaje, como los que impulsan ChatGPT, Gemini o Meta AI.

Se trata de su nueva familia de grandes modelos de lenguaje multimodales (LLM), capaces de procesar entradas de texto, imagen o audio. Estos modelos se denominan NVLM 1.0, y según sus pruebas, pueden "visualizar con modelos propietarios líderes" como GPT-4o (ni rastros de comparativas contra OpenAI o1), Llama 3-V o Gemini 1.5 Pro.

Estos nuevos modelos presentan diversas características, como precisión "mejorada" en tareas enfocadas específicamente en texto, además de rendir a la par de otros modelos en tareas de visión-lenguaje. En distintas pruebas, como MathVista, OCRBench, ChartQA y DocVQA, mostraron un desempeño similar o superior a alternativas como GPT-4o.

Nvlm 1 0 Rendimiento El rendimiento de NVLM 1.0 D-72B contra otras opciones como Llama (de Meta), GPT-4o (de OpenAI), o Gemini 1.5 Pro (de Google), donde el número más alto es el de mejor rendimiento

IA hasta para entender memes

El modelo principal de la familia NVLM 1.0 es el D-72B, que cuenta con 72 mil millones de parámetros y destaca por su capacidad para seguir instrucciones con gran precisión.

Esto se refleja, por ejemplo, en su habilidad para controlar la longitud de las respuestas generadas, así como en la producción de descripciones detalladas y de "muy alta calidad" de las imágenes proporcionadas.

Además de ser potente, también es versátil, dice NVIDIA, ya que puede realizar tareas multimodales simultáneamente, como el reconocimiento óptico de caracteres (OCR), razonamiento, localización, sentido común, conocimiento del mundo y codificación.

Para ilustrar sus capacidades, NVIDIA menciona que este modelo es capaz de explicar el humor detrás de memes. Para ejemplificarlo, en el artículo de presentación se le pide a D-72B que explique un meme, donde se hace una ironía con la impresión que causa el abstract de una publicación científica  y su desarrollo a partir de dos imágenes, de un lince y un gato doméstico para ejemplificarlo.

Explicacion Meme NVLM 1.0 explicando un meme

De forma adicional, la compañía muestra otros casos de uso, como la localización de indicaciones a partir de señalizaciones en imágenes, encontrar diferencias, y realizar razonamiento matemático y codificación a partir de tablas, información visual y hasta pseudocódigo escrito a mano.

La importancia del código abierto

El desempeño de los nuevos modelos LLM de NVIDIA no solo es notable por las pruebas, sino también porque se trata de productos de código abierto, disponibles para el público. Esto permite a investigadores y programadores experimentar completamente con su inteligencia artificial.

Esta apertura beneficia a múltiples empresas, ya que al poder acceder a modelos masivos y complejos sin la necesidad de pagar un precio restrictivo, pueden acelerar el desarrollo de herramientas basadas en estos LLMs.

Además del código del modelo, NVIDIA también ha puesto a disposición general el código de entrenamiento de sus LLMs, lo que permite a los usuarios ajustar y optimizar estos modelos para obtener un mejor rendimiento en pruebas específicas.

Inicio