En Ahrefs, contamos con un equipo de diseñadores extremadamente cualificados (y muy humanos), pero no todo el mundo puede permitirse ese lujo. Por ello, quería saber si los generadores de imágenes IA son útiles para crear publicaciones rápidas en las redes sociales, crear gráficos para entradas de blog o ahorrar dinero en costosas fotografías de archivo.
Así que probé las herramientas de conversión de texto a imagen en la nube más populares: DALL-E 3 (disponible en ChatGPT), Midjourney, Magic Media de Canva, Adobe Firefly y la nueva Gemini para Workspace.
Todas estas herramientas generan imágenes en unos pocos clics, sin necesidad de hacer nada complicado como entrenar modelos personalizados o ejecutar programas localmente en tu ordenador.
El mejor generador de imágenes IA es, en mi opinión, Adobe Firefly. Todos los modelos tienen sus puntos fuertes, pero Firefly ofrece el máximo control sobre la generación y edición de imágenes.
Aquí están los pros y los contras (y muchas, muchas imágenes) compartiendo mi experiencia con cada uno.
Generador de imágenes IA | Mejor para… | Precio |
---|---|---|
Adobe Firefly | Lo mejor para controlar al máximo las imágenes | 25 créditos gratuitos al mes; 4,99 $ por 100 créditos |
Midjourney | Lo mejor para imágenes bonitas | A partir de 10 $/mes por 200 generaciones |
DALL-E 3 / ChatGPT | Lo mejor para la visualización de datos | 2 imágenes gratuitas al día en el plan Gratuito; el acceso completo empieza a partir de 20 $/mes en el plan Plus |
Canva Magic Media | Lo mejor para generar imágenes vectoriales | 50 imágenes disponibles para usuarios de Canva Free; 500 imágenes al mes para usuarios de pago (desde 14,99 $/mes) |
Gemini for Workspace | Lo mejor para la concepción rápida | Disponible como complemento de Google Workspace a partir de 20 $/mes |
Quería poner a prueba cada uno de los generadores de imágenes IA en una serie de escenarios diferentes, así que creé un montón de mensajes a través de tres categorías principales:
- Fotografía de stock (por ejemplo, “Fotografía de stock de una bonita oficina doméstica minimalista con vistas a los árboles del exterior”).
- Gráficos e ilustraciones (por ejemplo, “Un personaje de dibujos animados pelirrojo con una enorme llave dorada para representar la búsqueda de palabras clave”).
- Visualizaciones de datos (por ejemplo, “Gráfico de datos de tráfico del sitio web: enero 946, febrero 1071, marzo…”).
He probado distintos niveles de complejidad, pero en general he mantenido la sencillez. El objetivo de estas herramientas de conversión de texto en imagen es describirles algo que tú quieres en imagen y que la IA lo cree por ti, así que evité deliberadamente la jerga de ingeniería o diseño profesional de nivel de doctorado.
Aquí tienes una foto mía haciendo estas pruebas:
(Es broma, esto lo ha generado Adobe Firefly utilizando una foto mía como referencia. Vivimos tiempos extraños).
A continuación, evalué el resultado de cada uno de los generadores de imágenes IA en algunas dimensiones clave:
- Precisión: ¿ha seguido el generador de imágenes mis instrucciones?
- Facilidad de edición: ¿fue fácil editar y perfeccionar el resultado?
- Extrañeza: ¿parecía el resultado extraño u obviamente generado por IA?
- Legibilidad del texto: ¿cómo gestiona el modelo la generación de texto?
- Coherencia: ¿podía reproducir imágenes similares en distintas ocasiones?
- Utilidad: ¿podría utilizar el resultado en la vida real?
Esto es lo que me he encontrado:
Adobe Firefly tiene, con diferencia, los mejores controles de edición de los generadores de imágenes que he probado. Lo cual no es sorprendente, teniendo en cuenta que Adobe fabrica Photoshop, Illustrator, Lightroom y docenas de otras herramientas de diseño líderes en el mercado.
Veamos un ejemplo. El mensaje “Un personaje de dibujos animados con pelo pelirrojo que lleva una enorme llave dorada para representar la búsqueda de palabras clave” generó una serie de imágenes aceptables, pero no geniales. Pero con unos pocos clics, pude solucionar los mayores problemas y mejorar notablemente el resultado.
Aquí está el antes:
La IA es muy mala dibujando manos, tanto que Firefly la abandonó a mitad de camino.
En unos pocos minutos usando Firefly, fui capaz de:
- Cambiar la relación de aspecto de 1:1 a 4:3 mediante relleno generativo.
- Corregir una mano que falta pidiendo a Firefly que regenere esa parte específica de la imagen.
- Aumentar la escala de la imagen pequeña y de baja calidad a una resolución mucho más útil de 2K.
Aquí está el después:
Adobe Firefly también te da mucho control sobre el proceso de generación de imágenes. Una gran ventaja: puedes utilizar imágenes existentes como referencias de estilo y composición, lo que facilita enormemente la generación de una serie de imágenes con un estilo coherente.
Este es el ejemplo: “Un personaje de dibujos animados con pelo pelirrojo que lleva una enorme lupa para representar la “investigación de la competencia””, pero utilizando mi generación de imágenes anterior como referencia:
El estilo es ligeramente diferente, pero son muy similares. También puedes especificar estilos de referencia, composiciones, tipos de contenido (arte o fotografía) e incluso efectos (color, iluminación, bokeh, ángulos de cámara, etc.).
Esto significa que puedes utilizar la misma indicación y obtener resultados muy diferentes. Este es el resultado de la pregunta “Despacho minimalista con vistas a los árboles del exterior” cuando ya había especificado la iluminación de atardecer y tonos cálidos:
Y aquí he utilizado la misma idea, pero he pedido poca luz y tonos fríos para conseguir un ambiente muy diferente:
Y como Firefly está hecho por Adobe, puedes importar las imágenes generadas a otros productos de Adobe para añadir texto o editarlas un poco más. Muy práctico.
Midjourney es maravilloso. Soy cliente de pago de Midjourney desde hace tres años por la sencilla razón de que todo lo que genera es precioso, y más agradable estéticamente que cualquier otro modelo de IA que haya probado.
Utilizo Midjourney para ilustrar mis escritos creativos, y sobresale en la ilustración de estilo fantástico. Aquí tienes una imagen que creé para una de mis novelas, sin editar ni manipular:
También es muy útil para el fotorrealismo. Esta es la frase: “Foto de stock de una oficina doméstica minimalista con vistas a los árboles del exterior”:
Hay un par de errores típicos de la IA (¿cuántas ruedas tiene esa silla?), pero quiero perdonarlos porque la foto es bastante bonita.
Aquí está “Foto de stock de una persona reflexiva en una reunión en una empresa de software”, con un hombre generado por IA tan guapo que no quise mirarme en un espejo en todo el día:
Incluso las ilustraciones de los dibujos animados de Midjourney tienen clase, y casi parecen sacadas de una película de Pixar:
Ignoremos la mano izquierda al revés.
Midjourney tiene debilidades. Categóricamente no puede hacer visualización de datos. Aliméntalo incluso con datos simples y generará tonterías (pero al menos serán tonterías bonitas):
Estoy deseando compartir este gráfico de tráfico de entradas de blog en mi recapitulación del primer trimestre.
Los flujos de trabajo de edición de Midjourney son mucho mejores que antes, pero todavía no son muy sofisticados. Además de generar cuatro imágenes para cada aviso, tienes la opción de:
- Modifica cualquier imagen individual, ya sea mucho o sutilmente (básicamente regenera una imagen muy similar a la anterior).
- Aumenta la resolución de las imágenes que quieras.
- Elimina partes de la imagen (pero sin especificar por qué quieres sustituirla).
- Cambia la relación de aspecto (cuadrada, 4:3, 16:9, etc.).
Aquí tienes un ejemplo de variación de una imagen. Hay pequeñas y sutiles diferencias entre cada foto, como el número de ruedas de la silla, que son útiles para minimizar los extraños efectos de la IA en las imágenes que te gustan:
Estas opciones no son ni de lejos tan precisas como el flujo de trabajo de edición de Adobe Firefly, pero dada la capacidad de Midjourney para crear imágenes generalmente atractivas a partir de simples indicaciones, este flujo de trabajo crea imágenes sorprendentemente útiles.
(Y como ventaja final, ya no tienes que depender de un servidor Discord para generar imágenes: la aplicación web de Midjourney funciona muy bien).
Dada la popularidad de ChatGPT, DALL-E 3 (el modelo de generación de imágenes ofrecido como parte de ChatGPT) será la primera introducción de la mayoría de la gente a los generadores de imágenes de IA. Es una pena, porque es uno de los peores.
Para demostrarlo, esto es lo que ocurrió cuando pedí una “Foto de archivo de alguien trabajando con su portátil en una cafetería de Nueva York”:
Esto es bastante representativo de DALL-E 3: la mayoría de sus imágenes parecen generadas por IA.
Fíjate un momento y verás textos sin sentido, muebles que se confunden con el fondo, algo extremadamente antinatural con el personaje principal, líneas rectas que nunca son rectas… y la mayoría de las imágenes de ChatGPT sufren los mismos problemas.
Aquí está ChatGPT intentando hacerme creer que se trata de la fotografía de una oficina en casa (los árboles parecen un cuadro de puntillismo):
Estos problemas son, al menos, menos evidentes en las imágenes de los dibujos animados. Aquí tenemos de nuevo a nuestro personaje sosteniendo una llave:
No está mal, a pesar de un par de artefactos de la IA, como la llave de doble punta y el extraño encanto abstracto de la mochila. Por desgracia, no pude eliminar estas pequeñas peculiaridades, porque aunque ChatGPT ha añadido recientemente la posibilidad de resaltar partes de la imagen para editarlas selectivamente, esta función era muy poco fiable cuando la probé.
En una ocasión, ChatGPT incluso decidió que, en realidad, no, no quería que hiciera ninguna edición de imagen:
Sin mucho control sobre la generación de imágenes o la edición, DALL-E 3 es prácticamente inútil a la hora de mantener estilos consistentes a través de las imágenes.
Cuando intenté hacer una nueva imagen con el mismo personaje de dibujos animados, cambió radicalmente de estilo:
Cuando le pedí a ChatGPT que redimensionara una miniatura de YouTube a una resolución de 16:9, decidió escribir un script en Python para estirar la imagen a formato horizontal.
Lo cual, err… no se veía bien:
Cuando traté de mejorar el mensaje para reflejar las directrices de la marca Ahrefs, me dio una conferencia sobre el diseño de miniaturas, y en realidad no hizo ninguna imagen.
Generar imágenes con ChatGPT me recuerda a jugar al videojuego DOOM en una calculadora. Puede que técnicamente sea posible, pero probablemente no deberías hacerlo.
ChatGPT tenía una virtud rescatable, donde su afición por Python era extremadamente útil: la visualización de datos. Era el único generador de imágenes de IA capaz de convertir una lista de puntos de datos en un gráfico preciso:
Y también puede manejar visualizaciones de datos más complejas:
Se trata de un tipo diferente de “generación de imágenes”, pero para alguien como yo, que maneja datos a diario, resulta increíblemente útil y es una función que utilizo todo el tiempo.
Magic Media de Canva es un generador de imágenes de IA integrado directamente en la aplicación principal de Canva. Para empezar, puedes elegir entre una imagen, un gráfico o un vídeo.
Se maneja bastante bien con la fotografía de archivo: esta es nuestra propuesta para una bonita oficina en casa:
Las mesas de tres patas están muy de moda.
Puedes elegir uno de entre unas dos docenas de estilos específicos para emular, y preestablecer la relación de aspecto de la foto. Aquí está nuestra cafetería de Nueva York con el estilo Moody aplicado:
Aquí empezamos a ver la mayor debilidad de Magic Media: el “fotorrealismo irrealista”.
Aquí tenemos otro intento de foto de archivo que casi tiene buena pinta… excepto por las manos deformadas, la estructura física confusa de los brazos y el conjunto de monstruos con caras derretidas del fondo:
También es útil para generar arte vectorial, y las imágenes se pueden exportar directamente como PNG sin fondo, pero las imágenes en sí son un poco de aficionados.
Aquí está de nuevo nuestra figura de dibujos animados sosteniendo una llave perfectamente lisa en una mano y una llave más pequeña, aparentemente derretida, en la otra:
Este es el aterrador resultado de usar el mismo prompt con el estilo 3D Chrome aplicado:
Querido Canva: nadie pidió esto.
Como Magic Media está integrado en Canva, es increíblemente fácil añadir texto, cambiar el tamaño de la imagen final o añadir efectos a las imágenes generadas. Es una gran ventaja, pero, en mi opinión, no es suficiente para compensar la baja calidad de la generación de imágenes.
Un ejemplo de lo rápido que se están desarrollando las herramientas de IA. Mientras escribía este artículo, Google añadió capacidades de generación de imágenes de IA directamente en Google Docs. Ahora, puedes usar el comando @image y seleccionar “Ayúdame a crear una imagen”.
Es bastante sencillo. Puedes utilizar una de las tres relaciones de aspecto y especificar uno de los seis estilos predeterminados, y Google te devuelve cuatro imágenes entre las que elegir.
Aquí tienes una pequeña imagen decente en respuesta a la petición “Un personaje de dibujos animados con pelo pelirrojo que lleva una enorme lupa”:
Y aquí presentamos “Un personaje de dibujos animados con pelo pelirrojo que lleva una enorme llave dorada” con el estilo Acuarela aplicado:
Aunque estos dibujos animados son decentes, Gemini parece tener una habilidad especial: la fotografía. Renderizó escenas muy bonitas para el aviso de mi oficina en casa con el estilo Fotografía seleccionado:
Y Gemini for Workspace parece manejar aún mejor las fotos de personas. Aquí tienes una versión muy realista de “Foto de archivo de alguien trabajando con su portátil en una cafetería de Nueva York”, incluso con el logotipo de Apple en el portátil:
Y, a continuación, te presentamos “Foto de una mujer dando una charla en un escenario”. No sabría distinguir si esta imagen se ha generado con IA:
Estas imágenes son pequeñas y de baja resolución, pero como gran ventaja, puedes generarlas dentro del flujo de trabajo, muy útil para añadir una maqueta rápida o un marcador de posición para pasar a tu equipo de diseño o mejorarla más adelante.
Evidentemente, se trata de una función muy nueva (cuando la probé, la generación de imágenes me fallaba un 70% de las veces), pero espero que mejore rápidamente y se convierta en uno de los principales aspirantes a Mejor generador de imágenes IA.
Reflexiones finales
Los generadores de texto a imagen de IA dan lo mejor de sí cuando pides diseños sencillos y no tienes una opinión muy formada sobre la imagen exacta que quieres ver. Si quieres una foto de archivo rápida o una ilustración para un blog, y no tienes que preocuparte por las molestas directrices de la marca, la mayoría de estas herramientas están a la altura (excepto quizá ChatGPT… lo siento).
Pero cuanto más detalles específicos quieras obtener de la imagen (palabras, números, directrices de marca concretas) y cuanto más concreta sea tu opinión sobre el aspecto que quieres que tenga la imagen final, más frustrantes se vuelven estas herramientas.
Creo que Adobe Firefly es el mejor generador de imágenes de IA porque se sitúa en la intersección entre la IA generativa y las herramientas de diseño tradicionales. Combina todas las ventajas creativas de la IA con el control de edición de Photoshop o Illustrator. Esto significa que puede abordar flujos de trabajo de diseño complicados, como la creación de una serie de personajes cohesionados o la aplicación de estilos o composiciones determinadas. Si te tomas en serio el uso de generadores de imágenes de IA para tu marca o negocio, yo empezaría por Firefly.
¿Tienes preguntas? Estamos en X.