Érase una vez en Silicon Valley, los ingenieros de varias empresas de electrónica jugueteaban en sus bancos y creaban nuevos inventos. Este retoque se hizo, al menos en parte, para mostrárselo al ingeniero en el banco de al lado para que ambos pudieran apreciar el ingenio e inspirar a otros. Parte de este trabajo finalmente se convirtió en productos, pero gran parte no lo hizo. Esta ineficiencia que existió hasta fines de la década de 1980 fue reemplazada en gran medida (primero por los contadores de frijoles y luego por el personal de marketing), y el desarrollo de productos cambió para centrarse en cambio en los deseos percibidos del cliente.
Las noticias de OpenAI la semana pasada sobre DALL-E, una red neuronal de inteligencia artificial avanzada que genera imágenes a partir de mensajes de texto, recuerdan a aquellos tiempos anteriores. El equipo de OpenAI reconoció en su publicación de blog que no había una aplicación definida que tuvieran en mente y que existe el potencial de impactos sociales desconocidos y desafíos éticos de la tecnología. Pero lo que se sabe es que, como esos inventos anteriores, DALL-E es una especie de maravilla inventada por el equipo de ingenieros.
OpenAI eligió el nombre DALL-E como punta de sombrero para el artista Salvador Dalí y WALL-E de Pixar. Produce imágenes pastiche que reflejan tanto el surrealismo de Dalí que fusiona el sueño y la fantasía con el mundo racional cotidiano, como también la inspiración de las pinturas de la NASA de las décadas de 1950 y 1960 y las de Disneyland Tomorrowland de Disney Imagineers.
Arriba: Los estilos respectivos de WALL-E de Salvador Dalí y Pixar Animation Studio.
Que DALL-E sea una síntesis de surrealismo y animación no debería sorprender, como se ha hecho antes. Dalí y Walt Disney colaboraron en un cortometraje de animación a partir de 1946, aunque pasaron más de 50 años antes de su lanzamiento. Llamada “Destino”, la película fusionó los estilos de dos mentes imaginativas legendarias.
Arriba: Destino, la colaboración entre Dalí y Walt Disney.
DALL-E es una versión de 12 mil millones de parámetros de la red neuronal de procesamiento de lenguaje natural GPT-3 de 175 mil millones de parámetros. GPT-3 “aprende” basándose en patrones que descubre en datos recopilados de Internet, desde publicaciones de Reddit hasta Wikipedia, fan fiction y otras fuentes. Basado en ese aprendizaje, GPT-3 es capaz de muchas tareas diferentes sin entrenamiento adicional, capaz de producir narrativas convincentes, generarcodigo de computadoratraducir entre idiomas y realizar cálculos matemáticos, entre otras hazañas, incluida la función de autocompletar imágenes.
Con DALL-E, OpenAI ha refinado GPT-3 para enfocarse y extender la manipulación de conceptos visuales a través del lenguaje. Está capacitado para generar imágenes a partir de descripciones de texto utilizando un conjunto de datos de pares texto-imagen. Tanto GPT-3 como DALL-E son “transformadores”, un tipo de red neuronal fácil de paralelizar que se puede escalar y entrenar en enormes conjuntos de datos. DALL-E no es la primera red de texto a imagen, ya que esta síntesis ha sido un área activa de investigación desde 2016.
El blog de OpenAI que anuncia DALL-E afirma que brinda acceso a un subconjunto de las capacidades de un motor de renderizado 3D, software que usa características de tarjetas gráficas para generar imágenes mostradas en pantallas o impresas en una página, a través del lenguaje natural. Los arquitectos los utilizan para visualizar edificios. Los arqueólogos pueden recrear estructuras antiguas. Los anunciantes y diseñadores gráficos los utilizan para crear resultados más llamativos. También se utilizan en videojuegos, arte digital, educación y medicina para ofrecer experiencias más inmersivas. La empresa afirma además que, a diferencia de un motor de renderizado 3D, cuyas entradas deben especificarse de forma inequívoca y con todos los detalles, DALL-E a menudo puede “rellenar los espacios en blanco” cuando el mensaje de texto implica que la imagen debe contener un cierto detalle que es no declarado explícitamente.
Por ejemplo, DALL-E puede combinar ideas dispares para sintetizar objetos, algunos de los cuales es poco probable que existan en el mundo real, como este ejemplo incongruente que fusiona un caracol y un arpa.
Arriba: DALL-E interpreta el mensaje de texto “Un caracol hecho de arpa. Un caracol con textura de arpa “.
Es ese “llenar los espacios en blanco” lo que es particularmente interesante, ya que sugiere capacidades emergentes, fenómenos inesperados que surgen de sistemas complejos. La conciencia humana es el ejemplo emergente clásico, una propiedad del cerebro que surge de la comunicación de información en todas sus regiones. De esta manera, DALL-E es el siguiente paso en la misión de OpenAI de desarrollar inteligencia artificial general que beneficie a la humanidad.
¿Cómo podría beneficiar DALL-E a la humanidad?
El blog de la compañía menciona específicamente el diseño como un posible caso de uso. Por ejemplo, un mensaje de texto de “Un sillón con forma de aguacate. Un sillón imitando un aguacate ”, arroja las siguientes imágenes:
El mensaje de texto “Un maniquí de mujer vestido con una chaqueta de cuero negro y una falda plisada dorada” arroja lo siguiente.
Y el mensaje de texto “Un dormitorio tipo loft con una cama blanca junto a una mesita de noche. Hay una pecera junto a la cama ”produce lo siguiente:
En cada uno de los ejemplos anteriores, DALL-E muestra creatividad, produciendo imágenes conceptuales útiles para el producto, la moda y el diseño de interiores. Solo he mostrado un subconjunto de las imágenes producidas para cada una de las solicitudes, pero son las que más se acercan a la solicitud. Y muestran claramente que DALL-E podría apoyar la lluvia de ideas creativa o aumentar a los diseñadores humanos, ya sea con ideas para empezar o, algún día, produciendo imágenes conceptuales finales. El tiempo dirá si esto reemplazará a las personas que realizan estas tareas o simplemente será otra herramienta para impulsar la eficiencia y la creatividad.
Una ayuda para la salud mental
En respuesta a otra demostración de DALL-E, que se muestra a continuación, donde el mensaje de texto solicita “una ilustración de un rábano daikon bebé con un tutú paseando a un perro”, comienza una entrada reciente en el boletín informativo “The Good Stuff”: “Un daikon bebé rábano en un tutú paseando a un perro. La frase me hace sonreír. La idea me hace sonreír. Y las ilustraciones conjuradas por un nuevo modelo de inteligencia artificial pueden ser las únicas cosas que, por sí solo, apoyen mi salud mental “.
El redactor del boletín podría tener algo importante. La relación entre la creación de arte y la salud mental positiva es bien conocida. Ha engendrado el campo de la arteterapia, y la visualización ha sido durante mucho tiempo un pilar de la psicoterapia. El profesor de arteterapia Girija Kaimal señala: “Cualquier cosa que involucre a su mente creativa, la capacidad de hacer conexiones entre cosas no relacionadas e imaginar nuevas formas de comunicarse, es bueno para usted”. Esto es cierto para cualquier expresión creativa visual: dibujo, pintura, fotografía, collage, escritura de poesía, etc. Esto podría extenderse a interactuar con DALL-E, ya sea para crear algo nuevo o simplemente para una sonrisa, o quizás más significativamente desde un tratamiento terapéutico. perspectiva para dar representación visual inmediata a un sentimiento expresado en palabras.
Video sintético bajo demanda
Como DALL-E ya proporciona algunas capacidades de motor de renderizado 3D a través de la entrada de lenguaje natural, el sistema podría producir rápidamente guiones gráficos. Posiblemente, podría producir videos completamente sintéticos basados en una secuencia de declaraciones de texto. En el mejor de los casos, esto podría conducir a una mayor eficiencia en la producción de animaciones.
La creación de DALL-E se remonta a la época en que los ingenieros creaban sin una señal clara de marketing para construir un producto. Al discutir una fusión de lenguaje y visión, el científico jefe de OpenAI, Ilya Sutskever, cree que la capacidad de procesar texto e imágenes juntos debería hacer que los modelos de IA sean más inteligentes. Si puede exponer los modelos a los datos de la misma manera que los humanos los absorben, los modelos deberían aprender los conceptos de una manera que sea más similar a los humanos y que sea más útil para un mayor número de personas. DALL-E es un paso considerable en esa dirección.
Gary Grossman es vicepresidente senior de práctica tecnológica en Edelman y líder global del Centro de excelencia de inteligencia artificial de Edelman.
VentureBeat
La misión de VentureBeat es ser una plaza urbana digital para que los responsables de la toma de decisiones técnicas obtengan conocimientos sobre tecnología transformadora y realicen transacciones. Nuestro sitio ofrece información esencial sobre tecnologías y estrategias de datos para guiarlo a medida que dirige sus organizaciones. Lo invitamos a convertirse en miembro de nuestra comunidad, para acceder a: información actualizada sobre los temas de su interés, nuestros boletines informativos, contenido exclusivo para líderes de opinión y acceso con descuento a nuestros eventos preciados, como las funciones de red Transform, y más. Hazte miembro
Source: http://feedproxy.google.com/~r/venturebeat/SZYF/~3/hnwwToCdB_o/