
Básicamente, lo que hace Imagen (la nueva IA que ha creado Google) es realizar una imagen a partir de un par de frases, pero lo sorprendente es que pueden ser combinaciones muy extrañas y aun así lo recreará con total exactitud, algo que ya casi realizaba Dall-E 2.
La diferencia con Dall-E 2, es que aparte de que las imágenes son más realistas y con mejor calidad, la comprensión de lo que le decimos a esta IA es superior, por ejemplo, si a Dall-E 2 le escribíamos que queríamos un oso panda haciendo latte art, esta nos devolvía la cara del oso panda hecha en el café con leche, mientras que Imagen entendía a la perfección que queríamos que fuera el oso quien estuviera ejecutando la acción.
Imagen utiliza el codificador T5-XXL para codificar el texto de entrada, posteriormente un modelo de difusión condicional mapea el texto y exporta una imagen de 64 x 64 píxeles y finalmente otros modelos de difusión de superresolución condicional aumenta la imagen hasta los 1024 x 1024 píxeles.
Tal y como ocurre con la IA de Dall-E 2, no podremos acceder a todo el potencial de esta herramienta por distintos desafíos éticos, ya que esta inteligencia artificial puede tener aplicaciones muy variadas que pudieran afectar a la sociedad.
Os traigo algunos de los muchos ejemplos que podéis ver en la página oficial de Imagen, si por ejemplo le pidierais una cobra en una granja y que la cobra estuviera hecha de maíz, os devolvería este resultado
Ahora le ponemos que queremos a un osito de peluche nadando en las Olimpiadas los 400 m al estilo mariposa
Y por último una de las que más me ha gustado, un perro Corgi viviendo en una casa hecha con sushi
La verdad que poco a poco vamos perfeccionando tanto las IA, que es prácticamente imposible diferenciar lo real de lo irreal, y ese es uno de los motivos por los que Google no quiere abrir al público a Imagen mientras no pueda limitar los usos con malos fines.