La nueva IA de Google, Imagen, supera a Dall-E 2 en la creación de imágenes a partir de texto

La nueva IA de Google, Imagen, supera a Dall-E 2 en la creación de imágenes a partir de texto
Escrito por Pablo el 25 May 2022 en Inteligencia Artificial

Básicamente, lo que hace Imagen (la nueva IA que ha creado Google) es realizar una imagen a partir de un par de frases, pero lo sorprendente es que pueden ser combinaciones muy extrañas y aun así lo recreará con total exactitud, algo que ya casi realizaba Dall-E 2

La diferencia con Dall-E 2, es que aparte de que las imágenes son más realistas y con mejor calidad, la comprensión de lo que le decimos a esta IA es superior, por ejemplo, si a Dall-E 2 le escribíamos que queríamos un oso panda haciendo latte art, esta nos devolvía la cara del oso panda hecha en el café con leche, mientras que Imagen entendía a la perfección que queríamos que fuera el oso quien estuviera ejecutando la acción.

Imagen utiliza el codificador T5-XXL para codificar el texto de entrada, posteriormente un modelo de difusión condicional mapea el texto y exporta una imagen de 64 x 64 píxeles y finalmente otros modelos de difusión de superresolución condicional aumenta la imagen hasta los 1024 x 1024 píxeles.

Tal y como ocurre con la IA de Dall-E 2, no podremos acceder a todo el potencial de esta herramienta por distintos desafíos éticos, ya que esta inteligencia artificial puede tener aplicaciones muy variadas que pudieran afectar a la sociedad.

Os traigo algunos de los muchos ejemplos que podéis ver en la página oficial de Imagen, si por ejemplo le pidierais una cobra en una granja y que la cobra estuviera hecha de maíz, os devolvería este resultado

Serpiente hecha de maíz en una granja

Ahora le ponemos que queremos a un osito de peluche nadando en las Olimpiadas los 400 m al estilo mariposa

Osito de peluche nadando al estilo mariposa

Y por último una de las que más me ha gustado, un perro Corgi viviendo en una casa hecha con sushi

La verdad que poco a poco vamos perfeccionando tanto las IA, que es prácticamente imposible diferenciar lo real de lo irreal, y ese es uno de los motivos por los que Google no quiere abrir al público a Imagen mientras no pueda limitar los usos con malos fines.