Google ha presentado Gemini 1.5, una nueva versión más potente de su sistema de inteligencia artificial con mejoras en áreas como eficiencia, rendimiento y capacidades de razonamiento, ya que cuenta con una mayor cantidad de parámetros.
Según la compañía, que detalla el desarrollo de Gemini 1.5 en una publicación de su blog, este modelo incorpora mejoras en el área de arquitectura que le permiten funcionar con capacidades similares a las de Gemini 1.0 Ultra, el modelo más grande de la compañía, utilizando una menor cantidad de recursos informáticos.
Las ventajas de Gemini 1.5
Gemini 1.5 también presenta algunas características clave, como una ventana de contexto, es decir, la información que se puede agregar al chatbot para que la procese y genere un resultado, de hasta un millón de tokens.
Los tokens son la unidad básica más pequeña de un texto que un programa de procesamiento de lenguaje natural, una IA, utiliza para analizar, procesar y comprender un texto. Estos suelen tener aproximadamente cuatro letras o casi una palabra, aunque depende de cada modelo de IA.
Según Google, este soporte para un millón de tokens, de momento de forma experimental, permite avanzar en la comprensión del contexto a mayor escala.
En comparación, el modelo estándar de Gemini Pro original se presentó con un contexto estándar de 32,000 tokens, lo que posibilita a Gemini 1.5 procesar una mayor cantidad de información antes de generar una respuesta. Aunque el límite de este nuevo modelo es un millón de tokens, el equipo detrás de su desarrollo acepta que se ha probado con éxito hasta con 10,000 millones de tokens.
Esto se traduce en la capacidad de analizar hasta una hora de video, 11 horas de audio, más de 30 mil líneas de código y unas 700 mil palabras. Según Google, puede resumir las 402 páginas de transcripción de la misión Apollo 11 y razonar sobre las diferentes conversaciones, eventos y detalles presentes en el documento.
No obstante, cuando se enfrenta a otras situaciones, como un manual de gramática de Kalamang, un idioma con menos de 200 hablantes en todo el mundo, Gemini 1.5 puede aprender a traducir inglés a Kalamang a un nivel similar al de una persona que aprende con el mismo contenido.
Para funcionar, Gemini 1.5 utiliza una nueva arquitectura llamada "Mezcla de Expertos" (MoE), un cálculo que aumenta la capacidad del modelo sin el respectivo aumento de necesidades de cálculo, mejorando su rendimiento en el proceso.
Tardará en llegar para la mayoría de usuarios
Es importante señalar que, por el momento, Gemini 1.5 Pro estará disponible únicamente para desarrolladores y clientes empresariales de AI Studio y Vertex AI.
Google también anticipa que Gemini 1.5 Pro contará con una ventana de contexto estándar de 128,000 tokens, similar al máximo de GPT-4 Turbo de OpenAI, cuando se presente para un lanzamiento más amplio.
Además, habrá varios niveles de precios para el modelo, que partirán desde los 128,000 hasta el millón de tokens de contexto, conforme este se vaya mejorando y optimizando.
Ver 1 comentarios