Google DeepMind anunció Genie 3, su nuevo modelo de propósito general para la creación de mundos interactivos generados por inteligencia artificial.
A partir de un prompt de texto, Genie 3 puede generar mundos dinámicos navegables en tiempo real, a 24 cuadros por segundo y resolución de 720p, con consistencia visual mantenida durante varios minutos.
Los mundos generados pueden ser explorados desde una perspectiva en primera persona, con respuestas inmediatas a las acciones del usuario, incluyendo navegación y eventos personalizados.
DeepMind ha trabajado durante años en simulaciones con agentes, aplicadas tanto a juegos de estrategia como a robótica. Esta línea de investigación llevó al desarrollo de los llamados “modelos de mundo”.
Embed - Genie 3: Creating dynamic worlds that you can navigate in real-time
Un modelo de mundo es un sistema capaz de simular entornos y predecir cómo evolucionan, incluyendo los efectos de las acciones de los agentes en ellos.
La empresa considera que este tipo de sistemas son una herramienta fundamental hacia la construcción de inteligencia artificial general (AGI).
En 2023, Google DeepMind presentó Genie 1 y Genie 2, los primeros modelos fundacionales con capacidad de crear entornos para agentes. Con Genie 3, se introduce la interacción en tiempo real.
Este nuevo modelo también mejora la consistencia visual y física respecto a versiones anteriores, manteniendo la coherencia del entorno incluso cuando se vuelve sobre lugares ya visitados. Los entornos generados incluyen fenómenos naturales, ecosistemas, estructuras históricas, escenarios fantásticos y ubicaciones del mundo real con un alto grado de realismo visual.
Entre los ejemplos presentados por DeepMind, se incluyen escenarios como un volcán activo, una ciudad veneciana, un bosque de fantasía o un paisaje irlandés alterado por eventos imposibles. La simulación de fenómenos naturales y propiedades físicas es uno de los ejes del sistema, incluyendo la representación del agua, la luz, el viento y sus efectos sobre el entorno.
Otra característica es la capacidad para generar ecosistemas con comportamiento animal, vegetación detallada y condiciones ambientales específicas, como humedad o iluminación cambiante.
También se muestra la posibilidad de representar estructuras históricas como el palacio de Knossos en Creta o una calle victoriana con portales a paisajes desérticos fantásticos.
Interacción, consistencia y aplicación en investigación
A diferencia de métodos tradicionales como NeRFs o Gaussian Splatting, Genie 3 no requiere representaciones 3D explícitas. Los entornos se generan cuadro por cuadro en función del texto y las acciones del usuario.
Esto permite una generación más dinámica y adaptativa, aunque supone un desafío técnico mayor: mantener la coherencia a medida que avanza la interacción en tiempo real.
DeepMind indica que Genie 3 mantiene la consistencia del entorno por varios minutos, incluso si el usuario regresa a ubicaciones vistas anteriormente, gracias a una memoria visual extendida.
Además de la navegación, el modelo permite introducir eventos personalizables mediante texto, como cambios en el clima, aparición de objetos o nuevos personajes.
Estas “promptable world events” amplían el rango de situaciones posibles para entrenar agentes y realizar pruebas contrafactuales, como “¿qué pasaría si se desatara una tormenta?”
En la investigación con agentes encarnados, Genie 3 fue utilizado para evaluar a una versión del agente SIMA, que ejecuta acciones sin conocer los objetivos de cada escenario.
La coherencia temporal permite acciones más complejas y prolongadas, con múltiples pasos necesarios para alcanzar una meta en entornos realistas.
El modelo presenta limitaciones, como una duración de interacción limitada a pocos minutos, una gama restringida de acciones posibles y dificultad para representar texto legible sin especificación previa.
También persisten desafíos en la representación precisa de ubicaciones reales y en la simulación de interacciones entre múltiples agentes independientes en un mismo entorno.
Google DeepMind lanza Genie 3 como una vista previa de investigación con acceso restringido a un grupo reducido de académicos y creadores, como parte de un enfoque de desarrollo responsable.
El equipo de desarrollo trabajó en conjunto con el área de Innovación Responsable, enfocándose en mitigar riesgos y maximizar los beneficios de este tipo de tecnologías fundacionales.
DeepMind considera que Genie 3 podrá ser aplicado en educación, entrenamiento profesional, evaluación de sistemas autónomos y otros contextos donde se requieran simulaciones realistas.
El modelo busca ser una herramienta para el desarrollo seguro de agentes inteligentes, ampliando el repertorio de experiencias posibles para el aprendizaje artificial.