¿La IA también es creativa?
Por: Laszlo Beke – BekeSantos.
Una de las grandes inquietudes que se manifiestan con frecuencia es como identificar y desarrollar la creatividad en el ser humano. La Inteligencia Artificial nace para tratar de lograr que una máquina se comporte como un ser humano. El camino más viable que se ha logrado para ello es tratar de replicar el cerebro humano. Por esa razón, la IA termina siendo un excelente medio para el estudio del cerebro humano. La IA ha sorprendido, incluso a sus propios creadores, haciendo cosas para las que no se había planificado en su construcción. Una muy importante para la cual no había sido diseñada, fue la capacidad que demostró ChatGPT para generar programas de computación. Ahora, se está planteando que la IA demuestra creatividad en la creación de imágenes y se están analizando los ingredientes ocultos que pueden estar detrás de esta creatividad de la IA.
Curiosamente, las tareas físicas que son fáciles para los humanos resultan muy difíciles para los robots, mientras que los algoritmos son cada vez más capaces de imitar nuestro intelecto. En particular, los generadores de imágenes están diseñados para imitar y replicar sus datos de entrenamiento, así que es raro que la IA no cumpla con ese objetivo. Una sorpresa que ha desconcertado a los investigadores durante mucho tiempo es la habilidad de estos algoritmos para desarrollar su propia y peculiar creatividad. Un estudio académico reciente sugiere que esta creatividad es una consecuencia inevitable de su arquitectura.
Trataré de hacer un resumen de las observaciones y estudios que llevaron a dos investigadores a pensar en la posibilidad de identificar la creatividad en los modelos de IA:
- Todo partió de la observación que las herramientas de generación de imágenes (donde se utiliza un modelo de difusión), en algunos casos y en sus comienzos producían pinturas con seres humanos con seis dedos.
- Ese hecho llevó a un investigador a asociarlo con el fenómeno de morfogénesis. La morfogénesis es el proceso biológico mediante el cual un organismo unicelular o pluricelular adquiere la forma característica de su especie. En el ser humano, cada organismo resultante tiene la forma de la especie, cada uno es singular, pero algunos niños nacen con un dedo adicional.
- El modelo de difusión, que utiliza la IA para generar imágenes usa dos atajos técnicos: localidad y equivariancia tradicional.
- Para probar la hipótesis de que la localidad y la equivariancia conducen a la creatividad, los investigadores diseñaron un sistema que solo optimizara la localidad y la equivariancia.
- Este sistema (el cual no es un modelo de IA) logró replicar de forma idéntica los resultados de los modelos de difusión entrenados con una precisión promedio del 90 %, un resultado inédito en el aprendizaje automático.
- Los resultados parecen respaldar la hipótesis del investigador de que la localidad y la equivariancia conducen a la creatividad .
- La IA permite estudiar el cerebro humano y seguramente tendremos más conocimiento y más sorpresas a futuro.
Para los que tienen mayor curiosidad, en el resto del artículo se describe todo el proceso seguido con mayor detalle.
Modelos de Difusión
Los modelos de difusión, que son la columna vertebral de las herramientas de generación de imágenes como DALL·E, Imagen y Stable Diffusion, están diseñados para generar copias exactas de las imágenes con las que se han entrenado. En la práctica, sin embargo, parecen improvisar, combinando elementos dentro de las imágenes para crear algo nuevo: no solo manchas de color sin sentido, sino imágenes coherentes con significado semántico. Esta es la «paradoja» tras los modelos de difusión: Si funcionaran a la perfección, deberían simplemente memorizar, pero no lo hacen; de hecho, son capaces de producir nuevas muestras. Para generar imágenes, los modelos de difusión utilizan un proceso conocido como eliminación de ruido. Convierten una imagen en ruido digital (una colección incoherente de píxeles) y luego la reensamblan. Es como triturar repetidamente un cuadro hasta que solo queda un montón de polvo fino, para luego recomponerlo. Durante años, los investigadores se han preguntado: si los modelos simplemente se reensamblan, ¿Cómo surge la novedad? Es como reensamblar un cuadro triturado y convertirlo en una obra de arte completamente nueva.
Ahora, dos físicos han hecho una afirmación sorprendente: son las imperfecciones técnicas del propio proceso de eliminación de ruido las que dan lugar a la creatividad de los modelos de difusión. El dúo desarrolló un modelo matemático de modelos de difusión entrenados para demostrar que su supuesta creatividad es, de hecho, un proceso determinista, una consecuencia directa e inevitable de su arquitectura.
Morfogénesis – Patrón de Turing para los humanos
Una forma de comprender el desarrollo de embriones en humanos y otros animales es a través de lo que se conoce como patrón de Turing. Los patrones de Turing explican cómo los grupos de células pueden organizarse en órganos y extremidades distintos para cada persona. Fundamentalmente, esta coordinación se lleva a cabo a nivel local. No hay un director general que supervise los billones de células para garantizar que todas se ajusten a un plan corporal final. En otras palabras, las células individuales no tienen un plano corporal definido en el que basar su trabajo. Simplemente actúan y realizan correcciones en respuesta a las señales de sus vecinas. Este sistema ascendente suele funcionar sin problemas, pero de vez en cuando falla, como, por ejemplo, al producir manos con dedos adicionales. Estamos hablando de morfogénesis, los procesos por los cuales los sistemas vivos se autoensamblan.
Atajos de los modelos de difusión
Cuando las primeras imágenes generadas por IA empezaron a aparecer en línea, muchas parecían pinturas surrealistas que representaban humanos con dedos adicionales. Esto inmediatamente hizo que el investigador Kamb pensara en la morfogénesis. Para entonces, los investigadores de IA sabían que los modelos de difusión recurren a un par de atajos técnicos al generar imágenes:
- Localidad – solo prestan atención a un solo grupo, o «parche», de píxeles a la vez.
- Equivariancia traslacional – la adherencia de una regla estricta al generar imágenes: si se desplaza una imagen de entrada solo un par de píxeles en cualquier dirección, por ejemplo, el sistema se ajustará automáticamente para realizar el mismo cambio en la imagen que genera. Esta característica es la forma en que el modelo preserva la estructura coherente; sin ella, es mucho más difícil crear imágenes realistas.
En parte debido a estas características, los modelos de difusión no prestan atención a dónde encajará un parche en particular en la imagen final. Simplemente se centran en generar un parche a la vez y luego los ajustan automáticamente en su lugar mediante un modelo matemático conocido como función de puntuación, que puede considerarse como un Turing digital. Durante mucho tiempo, los investigadores han considerado la localidad y la equivariancia como simples limitaciones del proceso de eliminación de ruido, peculiaridades técnicas que impedían que los modelos de difusión crearan réplicas perfectas de las imágenes. No las asociaban con la creatividad, que se consideraba un fenómeno de orden superior.
La localidad y la equivariancia conducen a la creatividad – la máquina ELS
El investigador Kamb desarrolló la hipótesis de que la localidad y la equivariancia conducen a la creatividad. Esto planteó una tentadora posibilidad experimental: si lograba diseñar un sistema que solo optimizara la localidad y la equivarianza, debería comportarse como un modelo de difusión. Este experimento fue el eje central de un nuevo artículo, escrito por Kamb y Ganguli. Kamb y Ganguli denominan a su sistema la máquina de puntuación local equivariante (ELS). No se trata de un modelo de difusión entrenado, sino de un conjunto de ecuaciones que pueden predecir analíticamente la composición de imágenes denominadas basándose únicamente en la mecánica de la localidad y la equivarianza. Posteriormente, tomaron una serie de imágenes convertidas a ruido digital y las procesaron tanto con la máquina ELS como con varios modelos de difusión potentes, como ResNets y UNets. Los resultados fueron impactantes: en general, la máquina ELS logró replicar de forma idéntica los resultados de los modelos de difusión entrenados con una precisión promedio del 90 %, un resultado inédito en el aprendizaje automático.
Los resultados parecen respaldar la hipótesis de Kamb: En cuanto se impone la localidad, [la creatividad] se automatiza; surge de la dinámica de forma completamente natural. Los mismos mecanismos que restringieron el margen de atención de los modelos de difusión durante el proceso de eliminación de ruido —obligándolos a centrarse en áreas individuales, independientemente de su ubicación final— son los mismos que posibilitaron su creatividad. El fenómeno de los dedos adicionales observado en los modelos de difusión fue, de manera similar, una consecuencia directa de la hiperfijación del modelo en la generación de áreas locales de píxeles sin un contexto más amplio.
Creando Creatividad
Por primera vez, investigadores han demostrado cómo la creatividad de los modelos de difusión puede considerarse un subproducto del propio proceso de eliminación de ruido, un proceso que puede formalizarse matemáticamente y predecirse con un grado de precisión sin precedentes. Es casi como si los neurocientíficos hubieran introducido a un grupo de artistas humanos en una máquina de resonancia magnética y hubieran encontrado un mecanismo neuronal común detrás de su creatividad, que pudiera describirse como un conjunto de ecuaciones. La creatividad humana y la de la IA pueden resultar no siendo tan diferentes.
Opinión de los expertos
Los expertos entrevistados para el artículo coincidieron en que, si bien el artículo de Kamb y Ganguli arroja luz sobre los mecanismos que subyacen a la creatividad en los modelos de difusión, aún queda mucho por descubrir. Por ejemplo, los grandes modelos lingüísticos y otros sistemas de IA también parecen mostrar creatividad, pero no aprovechan la localidad ni la equivarianza.
Se hace referencia a The Hidden Ingredients Behind AI’s Creativity. La imagen es cortesía de Microsoft Copilot.