Una comparación visual de modelos generativos de imágenes ante «instrucciones complicadas»

Por @Alvy — 30 de Octubre de 2025

Shaun Pedicini planteó una comparación entre varios modelos generativos de imágenes (GenAI) ante pruebas difíciles, en las que se buscaba la fidelidad. La idea era ver qué creaban a partir de las mismas instrucciones, que no eran del todo triviales, sin inventarse ni omitir nada importante. El resultado está en GenAI Image Showdown y muestra visualmente cómo actúan los modelos de vanguardia de la inteligencia artificial (el «state of the art», que dicen en inglés) ante esta prueba.

Los modelos a prueba son:

Midjourney v7
OpenAI 4o
Gemini Flash 2.0 / 2.5 Flash Image
Qwen-Image
Seedream 4
FLUX.1 / Krea / kontext
Imagen 3 / 4 / 4 Ultra
HiDream-I1
Hunyuan Image 2.0

Hay una ventana para elegir cuáles se comparan.

OpenAI 4o, Gemini 2.5, Imagen 4, Seedream 4, Flux.1 y Midjourney v7. La verdad es que no he encontrado la fecha en la que se hicieron las pruebas, pero deben ser relativamente recientes. No son todos los que están, y hay omisiones notables como Grok, que puedo entender porque los resultados son penosos (los he probado) aunque el Grok Imagine sea una maravilla en velocidad para generar vídeos a partir de fotos.

Los ejemplos incluyen generar una pintura histórica de «Alejandro Magno cabalgando sobre una pelota de goma hacia una batalla» o «un delfín dándole un azote con su aleta a una sirena». Desde luego el creador de la página se ha cuidado de encontrar temas originales y enrevesados.

Algunas instrucciones tienen complicaciones porque buscan el engaño: apilar unos cubos semitransparentes de ciertos colores en un orden determinado (lo hacen muy bien) o generar una estrella de 9 puntas (más o menos bien, en varios estilos). En cambio en otras fallan miserablemente, como en generar un dado 20 (icosaedro) con los números primos en las caras (se le proporciona la lista), liándose con números que no son primos.

El estado de la cuestión a mi me parece que es excelente. Simplemente, sería impensable hace relativamente poco tiempo, o incluso en los tiempos del sofá-kiwi. Si has probado alguno habrás visto que con ciertas modificaciones no es difícil afinar las imágenes para que muestren lo que se espera… aunque a veces los modelos son muy cabezotas y enfrentarse a sus limitaciones es misión imposible. En cualquier caso creo que se le puede dar un aprobado a la mayoría. Y eso que no están otros contrincantes que también lo hacen muy bien.

El mejor resulta ser OpenAI 4o, seguido de Gemini 2.5 Flash, con 9 y 8 puntos sobre 12, respectivamente, seguidos de Imagen 4 y Seedream 4 con 7.

En la página hay enlaces a todos los generadores de imagen, para quien quiera probarlos. También hay otra comparativa similar sobre edición de imágenes: GenAI Image Editing Showdown, que no está tampoco nada mal. Aquí gana Seedream 4, seguido de Gemini 2.5 Flash.