La inteligencia artificial de Google no deja de avanzar. Su novedad más reciente, Gemini 2.0, es un modelo de IA descrito como el "más capaz" hasta ahora. Esta versión llega acompañada de nuevos agentes capaces de pensar, recordar y tomar distintas acciones de acuerdo con sus objetivos.
Según Google, todas estas innovaciones se basan en Gemini 1.0. La segunda versión mejora el rendimiento y permite, entre otras cosas, generar imágenes de forma nativa, trabajar con audio multilingüe, usar imágenes inteligentes de manera integrada y vincularse con el buscador, además de contar con la capacidad de ejecutar código.
Gemini 2.0 introduce avances significativos en multimodalidad, como la creación de resultados nativos en imágenes y audios, así como herramientas integradas para desarrollar nuevos agentes de IA.
Inicialmente, Google señala que Gemini 2.0 estará disponible para desarrolladores y verificadores. Su implementación comenzará en productos como el chatbot Gemini y el buscador, aunque también estará disponible como Gemini 2.0 Flash Experimental para los usuarios del asistente inteligente.
Otra novedad es Deep Research, una función capaz de razonar de forma avanzada y aplicar contexto ampliado para actuar como un asistente de investigación. Este recurso permite explorar temas complejos y compilar informes, que estará disponible para los usuarios de Gemini Advanced.
Google también anunció que Gemini 2.0 llegará a las Visiones Generales hechas por IA en el buscador, lo que permitirá resolver "temas más complejos", como ecuaciones matemáticas avanzadas, preguntas multimodales y código.
Las variantes de Gemini 2.0
Junto con Gemini 2.0 llegan nuevos agentes de IA bajo el modelo Gemini 2.0 Flash, una evolución de la versión 1.5 Flash con el doble de velocidad y menor latencia.
Este modelo admite entradas y salidas multimodales, como imágenes, videos, audio multilingüe y texto. Además, integra herramientas como Búsqueda de Google, ejecución de código y funciones personalizadas por los usuarios.
Gemini 2.0 Flash estará disponible primero en Google AI Studio y Vertex AI para desarrolladores. Por otro lado, Gemini 2.0 se lanzará globalmente en su versión optimizada 2.0 Flash Experimental, que estará disponible en 2025 para más productos.
Los agentes con IA llegan a Google
Este modelo también introduce las "experiencias de agentes", diseñadas para ayudar a los usuarios con tareas específicas. Entre estas se encuentran Project Astra, Project Mariner y Jules.
Project Astra es un agente con capacidades multimodales para el mundo real. Puede conversar en varios idiomas, comprender acentos y palabras comunes, utilizar herramientas como Google Search, Lens y Maps, y recordar hasta 10 minutos de conversaciones anteriores. Su latencia ha sido optimizada para acercarse a una interacción humana.
Project Mariner es un prototipo de investigación que explora la interacción entre humanos y agentes de IA. Es capaz de interpretar información en la pantalla del navegador, como texto, imágenes, código y formularios. Mediante una extensión para Chrome, este agente puede completar tareas para el usuario.
Aunque en etapa de desarrollo, Project Mariner actualmente puede desplazarse, escribir y hacer clic en la pestaña activa del navegador. Para acciones sensibles, como compras, solicita confirmación adicional. Esta función está siendo probada por verificadores de confianza mediante una extensión experimental para Chrome.
Jules, por su parte, es un agente diseñado para desarrolladores. Integra código experimental potenciado por IA dentro de flujos de trabajo en GitHub. Puede entender problemas, planear soluciones y ejecutarlas bajo supervisión.
En el ámbito de los videojuegos, Gemini 2.0 también ha introducido un agente que asiste al usuario en la navegación de mundos virtuales. Este puede razonar a partir de las acciones observadas en pantalla y ofrecer sugerencias en tiempo real.
Actualmente, Google colabora con desarrolladores como Supercell para evaluar estas capacidades en títulos como Clash of Clans y Hay Day. Este concepto es similar a "Ayuda" de PlayStation o Copilot en Xbox, pero con un enfoque más proactivo.
Finalmente, Google explora la aplicación de Gemini 2.0 en el ámbito físico mediante la robótica, a través de aprovechar sus capacidades de razonamiento espacial. Sin embargo, este desarrollo aún se encuentra en una etapa inicial.
Ver 0 comentarios