¿El fin de los Transformers? Google propone un nuevo paradigma de aprendizaje

Google Research presentó en NeurIPS 2025 un paper que propone algo bastante ambicioso: un nuevo paradigma de aprendizaje llamado Nested Learning (Aprendizaje Anidado). Y con él, una arquitectura llamada HOPE que funciona como prueba de concepto.

No olvidemos que los Transformers — la arquitectura detrás de todos los LLM que usamos hoy — nacieron de un paper de Google en 2017: "Attention Is All You Need". Ocho años después, el mismo Google nos dice que la atención ya no es suficiente.

Si este enfoque prospera, la inteligencia artificial va a dar un paso importante hacia algo más parecido a cómo aprendemos los humanos: no un sistema que sabe todo lo que sabe porque alguien se lo enseñó una vez, sino algo que evoluciona, que se adapta, que incorpora lo nuevo sin perder lo que ya aprendió.

Y eso, más allá de lo técnico, nos va a meter de lleno en conversaciones que ya no podemos esquivar: qué rol le damos a la IA en el trabajo, cómo convivimos con sistemas que aprenden solos, y en última instancia, qué nos queda a nosotros como seres humanos cuando la máquina no solo calcula, sino que aprende.

El problema que ataca

Los modelos de IA actuales (los LLM que todos usamos) tienen una limitación fundamental: después de entrenados, no pueden seguir aprendiendo. Pueden procesar lo que les das en el momento (el famoso "contexto"), pero no integran conocimiento nuevo de forma permanente. Si querés que aprendan algo nuevo, hay que reentrenarlos. Esto en el mundo de la neurociencia se llama olvido catastrófico — y es exactamente lo opuesto a cómo funciona el cerebro humano.

¿Qué propone Nested Learning?

Hoy tratamos la arquitectura del modelo (la estructura) y el optimizador (cómo se entrena) como cosas separadas. Nested Learning dice: son la misma cosa vista desde distintos niveles. Un modelo no es un proceso único — es un sistema de problemas de optimización anidados, cada uno con su propia velocidad de actualización y su propio flujo de información.

¿Y HOPE?

HOPE es la arquitectura que demuestra que esto funciona. Se conecta con otras arquitecturas recientes de Google como Titans, que también exploran nuevas formas de memoria, pero con una diferencia clave: es auto-modificable. Puede optimizar su propia forma de aprender — no solo ajustar pesos, sino cambiar las reglas con las que se ajusta.

Además introduce un Sistema de Memoria Continua: en lugar de tener solo "memoria de corto plazo" (atención) y "pesos fijos" (largo plazo), HOPE maneja un espectro de memorias con distintas velocidades — desde cambios rápidos hasta consolidación lenta. Bastante más parecido a cómo opera nuestra memoria biológica.

¿Funciona realmente?

Sin duda es la pregunta para ver si es interesante o no.

En los benchmarks del paper, HOPE superó a Transformers estándar y a modelos recurrentes modernos en tareas de lenguaje, razonamiento y manejo de contextos largos.

¿Es un modelo que podés usar?

No. HOPE es investigación, una prueba de concepto. No es un producto ni algo desplegable hoy.

Además, este enfoque también tiene desafíos importantes: entrenar sistemas con optimización anidada es computacionalmente más costoso y todavía no está claro si escala a modelos del tamaño de los LLM actuales.

¿Por qué importa?

Porque apunta a resolver algo que los LLM actuales simplemente no pueden hacer: aprender continuamente después de ser desplegados. Si este enfoque escala, estamos hablando de modelos que evolucionan con el uso — no que quedan congelados después del entrenamiento.

Gustavo Gretter