Las imágenes generadas por IA han pasado de curiosidad técnica a herramienta de producción en menos de tres años. Entender cómo funcionan —no a nivel matemático, pero sí conceptualmente— es lo que permite usarlas de forma eficaz y entender por qué producen lo que producen.
La lógica del ruido inverso
Los modelos de difusión, que son la base de la mayoría de las herramientas de generación de imágenes actuales, aprenden a generar imágenes aprendiendo primero a destruirlas.
Durante el entrenamiento, el modelo recibe millones de imágenes reales y las “corrompe” progresivamente añadiéndoles ruido gaussiano —una especie de granulado estático— en pequeños pasos hasta que la imagen es completamente irreconocible. Después, el modelo aprende a hacer el proceso inverso: dado una imagen ruidosa en cierta etapa de corrupción, predice cómo eliminar el ruido para acercarse a la imagen limpia.
Una vez entrenado, el modelo puede generar imágenes nuevas empezando desde ruido puro y aplicando el proceso inverso de forma iterativa: en cada paso, elimina un poco de ruido guiado por una señal de texto, hasta obtener una imagen coherente.
Generación de imagen (proceso simplificado):
Ruido puro → [Paso 1: elimina ruido] → Imagen muy borrosa
→ [Paso 2: elimina ruido] → Forma vagamente reconocible
→ [Paso 3: elimina ruido] → Estructura clara
...
→ [Paso N: elimina ruido] → Imagen final
En cada paso, el proceso está guiado por el texto del prompt.
El número de pasos (steps) es un parámetro configurable. Más pasos = imagen más detallada pero proceso más lento. Entre 20 y 50 pasos es el rango habitual para imágenes de calidad.
CLIP: conectar texto e imagen
Para que el proceso de difusión sea guiado por texto, el modelo necesita un componente que entienda la relación entre palabras e imágenes. Ese componente es CLIP (Contrastive Language-Image Pre-training), desarrollado por OpenAI.
CLIP fue entrenado con cientos de millones de pares (imagen, texto descriptivo) y aprendió a representar imágenes y texto en el mismo espacio matemático. Esto significa que puede medir qué tan “parecida” es una imagen a una descripción textual.
En los modelos de difusión, CLIP (o variantes similares) actúa como guía: en cada paso del proceso de denoising, el modelo se orienta hacia la dirección que maximiza la similitud entre la imagen que está produciendo y el texto del prompt.
Eso explica por qué el prompt importa tanto: es literalmente la señal que guía cada paso de la generación.
El prompt visual: cómo funciona
El prompting para imágenes es diferente al prompting para texto por una razón fundamental: los modelos de imagen fueron entrenados sobre descripciones visuales, no sobre instrucciones.
Lo que funciona para texto —“explícame con detalle cómo funciona X”— no produce los mejores resultados en imagen. Lo que funciona para imagen es una descripción visual densa: qué hay en la imagen, cómo está iluminado, desde qué ángulo, con qué estilo artístico, con qué calidad técnica.
Elementos de un prompt visual eficaz:
- Sujeto: qué hay en la imagen y cómo es (“una mujer de unos 40 años, ropa casual, sonriendo”)
- Acción o posición: qué está haciendo o cómo está situado
- Entorno: dónde ocurre la escena
- Iluminación: natural, studio lighting, golden hour, dramatic backlighting
- Estilo: fotografía documental, ilustración editorial, óleo sobre lienzo, pixel art
- Calidad técnica: 4k, hyperrealistic, highly detailed, sharp focus
- Artistas de referencia (con precaución): “in the style of Edward Hopper” activa patrones visuales específicos del entrenamiento
Modificadores negativos. La mayoría de los modelos permiten especificar qué NO quieres en la imagen (negative prompt): “blurry, distorted, extra fingers, low quality, watermark”.
Los dedos y las manos son notoriamente difíciles para los modelos actuales —producen frecuentemente más o menos dedos de los normales— y aparecen regularmente en los negative prompts.
Los modelos principales
Stable Diffusion (código abierto). La base del ecosistema abierto. Ejecutable localmente sin coste de API. Miles de variantes (checkpoints) especializados en fotografía, anime, arquitectura, moda. El control es máximo pero la curva de aprendizaje es la más alta.
Midjourney. El estándar artístico. Produce imágenes con estética muy cuidada por defecto, incluso con prompts simples. Funciona a través de Discord. Especialmente bueno para imágenes con intención artística fuerte.
DALL·E 3 (OpenAI). Integrado en ChatGPT. La opción más accesible. Entiende mejor el lenguaje natural sin necesidad de dominar el prompt visual. Menor control artístico que Midjourney pero mucho más fácil para usuarios sin experiencia.
Adobe Firefly. Integrado en el ecosistema Adobe y entrenado sobre imágenes con licencia adecuada. La opción más segura para uso comercial desde el punto de vista de derechos.
Flux. Un modelo de código abierto más reciente que ha igualado y en algunos aspectos superado la calidad de los modelos cerrados. Ha rejuvenecido el ecosistema de código abierto.
Limitaciones actuales
Texto en imágenes. Los modelos de difusión actuales producen texto dentro de las imágenes de manera inconsistente —letras deformadas, palabras inventadas. Esto mejora con cada generación de modelos.
Coherencia en múltiples imágenes. Generar varias imágenes que muestren al mismo personaje con aspecto consistente requiere técnicas adicionales (ControlNet, IP-Adapter) y no funciona de forma fiable sin ellas.
Composición compleja. Escenas con muchos elementos, relaciones espaciales precisas o interacciones específicas entre objetos son más difíciles de controlar.
Derechos y propiedad. Los modelos fueron entrenados sobre imágenes de internet, muchas con derechos de autor. El estatus legal de las imágenes generadas y el uso de estilos de artistas específicos sigue siendo objeto de debate legal y ético.
La generación de imágenes es probablemente el área donde la IA ha avanzado más visiblemente en los últimos tres años. Las imágenes que hoy produce un modelo de difusión de calidad eran imposibles o requerían semanas de trabajo humano hace apenas cuatro años.