Cómo se relaciona el predictive coding en el cerebro con los modelos generativos y la inferencia variacional en la IA

Una de las ideas más profundas de la neurociencia moderna es el predictive coding. Propone que el cerebro no es un receptor pasivo de datos sensoriales, sino una máquina activa de predicción. Las regiones superiores envían de forma continua expectativas descendentes sobre lo que las regiones inferiores deberían ver, oír o sentir. Cuando esas predicciones no coinciden con la entrada real, la diferencia sube como error de predicción. Todo el sistema trabaja para reducir esos errores con el tiempo.

Esto no es solo una analogía suelta para el aprendizaje. Es un marco matemáticamente fundamentado para la percepción, la acción y la cognición. A partir del trabajo de Karl Friston y el Principio de Energía Libre, la idea es que el cerebro mantiene un modelo generativo interno del mundo. Predice las señales entrantes y luego se actualiza para mejorar esas predicciones.

La cantidad que se minimiza es la energía libre variacional:

F = \mathbb{E}_{q(\phi)}[\ln q(\phi) - \ln P(o, \phi)]

Aquí, $q(\phi)$ es la distribución posterior aproximada sobre causas ocultas $\phi$ , y $P(o, \phi)$ es la probabilidad conjunta de observaciones $o$ y causas. Minimizar $F$ equivale a maximizar el evidence lower bound, o ELBO, el mismo objetivo usado en inferencia variacional.

En el cerebro, esto ocurre de manera jerárquica. Las áreas sensoriales comparan la entrada bruta con predicciones que descienden desde regiones superiores. El error resultante se pondera por su precisión, es decir, por qué tan confiable parece la señal, y luego se envía hacia arriba para actualizar el modelo. Esa ponderación por precisión es crucial porque decide qué errores importan más en ese momento. Si un error es grande y confiable, el modelo cambia más. Si la entrada es ruidosa o esperada, el error se atenúa.

La acción entra por medio de la inferencia activa. El cerebro no solo actualiza su modelo de forma pasiva. También elige acciones que hacen que el mundo se parezca más a sus predicciones. La percepción y la acción se convierten en dos caras del mismo ciclo de minimización de error.

El paralelo directo en la IA

La ciencia computacional llegó a matemáticas muy parecidas al construir variational autoencoders y otros modelos generativos. En un VAE, un encoder aproxima la posterior $q(z \mid x)$ sobre variables latentes $z$ dadas observaciones $x$ , mientras un decoder define la distribución generativa $p(x \mid z)$ . El entrenamiento minimiza el ELBO:

\mathcal{L} = \mathbb{E}_{q(z \mid x)}[\ln p(x \mid z)] - D_{KL}(q(z \mid x) \parallel p(z))

Esto está muy relacionado con la expresión de energía libre anterior. El término de divergencia KL mantiene la posterior aproximada cerca del prior, de forma parecida a cómo los priors y la incertidumbre restringen la inferencia en el cerebro.

Los transformers y los modelos de difusión llevan esto más lejos. La atención puede verse como una forma de pasar creencias y corregir predicciones entre capas. Los modelos de difusión aprenden a revertir un proceso de ruido, algo muy relacionado con objetivos variacionales. Los world models en aprendizaje por refuerzo, como Dreamer o PlaNet, construyen modelos predictivos explícitos de estados futuros y reducen errores de predicción a través del tiempo, algo muy cercano a la inferencia activa.

Incluso el aprendizaje autosupervisado en los modelos de lenguaje tiene un sabor claro a predictive coding. El modelo predice el siguiente token, o un token enmascarado, y usa el error para actualizar sus representaciones internas. La pérdida es otra forma de log likelihood negativo, que puede verse como minimizar sorpresa bajo un modelo generativo.

Por qué esto importa

Lo que vuelve tan importante esta conexión es que el predictive coding ofrece un solo principio para unir percepción, aprendizaje, control motor y manejo de incertidumbre bajo un mismo objetivo: minimizar la energía libre variacional. El cerebro hace esto con alrededor de 20 watts, usando picos dispersos y actualizaciones locales. Los sistemas modernos de IA suelen necesitar muchísimo más cómputo para formas relacionadas de inferencia y aun así no tienen el ciclo tan cerrado entre acción y percepción que vuelve a la inteligencia biológica tan eficiente.

La teoría también ayuda a explicar por qué los cerebros manejan tan bien la incertidumbre, la novedad y los datos escasos. Al generar predicciones de forma constante y actualizarse sobre todo ante errores precisos, el sistema evita sobrerreaccionar al ruido mientras mantiene creencias flexibles. Eso es exactamente el tipo de aprendizaje continuo y eficiente en muestras que todavía queremos en los sistemas artificiales.

Lecciones que la IA puede tomar del predictive coding

Construir modelos generativos jerárquicos explícitos en lugar de depender solo de pipelines discriminativos.
Incorporar errores ponderados por precisión para que los modelos representen mejor la incertidumbre y respondan mejor a entradas ruidosas o fuera de distribución.
Cerrar el ciclo entre percepción y acción mediante inferencia activa en lugar de depender solo de señales de recompensa fijas.
Usar objetivos tipo ELBO como una forma más unificada de combinar aprendizaje supervisado, no supervisado y por refuerzo.
Adoptar actualizaciones dispersas y dirigidas por eventos, de modo que el cómputo intenso ocurra solo cuando los errores de predicción realmente importan.

Cada vez que entrenamos un modelo generativo o un world model hoy, estamos ejecutando una versión de una idea que la neocorteza ha venido refinando durante millones de años. El predictive coding sugiere que la inteligencia no se trata solo de almacenar más datos o escalar parámetros. Se trata de construir el modelo interno correcto, predecir bien y actualizarse de manera eficiente cuando el mundo nos sorprende.