PL Segovia: Stable Diffusion, Generación de imágenes con código abierto

El 22 de agosto de 2022, Stability AI puso en marcha Stable Diffusion. En realidad, Stable Diffusion fue desarrollado por un equipo de investigadores de la Ludwig-Maximilians-Universität en Múnich, mientras que Stability AI financió los recursos informáticos para entrenar el modelo.

La empresa Stability ha sido criticada por otorgarse demasiado crédito indebido, ya que la Universidad de Münich hizo todo el trabajo pesado que dio origen a Stable Diffusion. El fundador de IA que se atribuye el éxito de Stable Diffusion tiene un historial de exageraciones. Forbes

El Prof. Dr. Björn Ommer, fue el jefe del grupo de investigación en la universidad pública alemana. El equipo de investigación de Stability IA también cuenta con Robin Rombach, Andreas Blattmann y Dominik Lorenz, quienes dirigieron el lanzamiento original de Stable Diffusion como académicos.

En un año, Stability AI ha pasado de un equipo de 50 personas a un equipo de casi 200 empleados en todo el mundo. Stability AI es una empresa global con sede en Londres.cuenta con personal de alto nivel en los Estados Unidos, Canadá, el Reino Unido, Francia, Alemania, los Emiratos Árabes Unidos, China y Japón. Está comprometida con el desarrollo y la implementación seguros de modelos abiertos

Supervisión de la IA. Los directivos Stability AI reconocen la necesidad de trabajar con los gobiernos para asegurar la inteligencia artificial. En agosto, participaron en una iniciativa de seguridad patrocinada por la Casa Blanca.

Desarrollo de modelos de IA generativa

Stability AI desarrolla modelos de IA generativa para imágenes, lenguaje, audio y vídeo que

Stable Diffusion es una familia de modelos de imágenes de código abierto que alimenta hasta cerca del 80% de las imágenes generadas por IA; sus modelos de lenguaje de código abierto se han descargado más de seis millones de veces;
Stable Audio, fue incluido recientemente en la lista de TIME Best Inventions de 2023.
StableCode, modelo de LLM para la generación de código.

La herramienta: Stable Diffusion

Esta herramienta es gratuita. El método de financiación de esta plataforma son los anuncios de Google Adsense. Por cada solicitud genera 4 imágenes. El modelo Stable Diffusion genera imágenes de alta calidad a partir de instrucciones en lenguaje natural.

La Misión: construir modelos básicos de acceso abierto. Stable Diffusion tiene la misión de construir las bases que activen el potencial de la humanidad a través de modelos básicos de acceso abierto, permitiendo a los desarrolladores de todo el mundo descargar y construir sobre su código de forma gratuita.

Muchos, en la comunidad de IA, consideraron Stable Diffusion como un hito revolucionario. Porque no solo igualaba, o incluso superaba, las capacidades de los modelos grandes y cerrados de texto a imagen, como DALL-E 2 o Imagen de Google, sino que era de código abierto.
Cuando creamos Stable Diffusion queríamos democratizar la investigación en IA y luchar contra la utilización de la nueva tecnologías solo por las empresas con grandes medios para realizarla. Esta empresa nace para descubrir nuevos modelos de tratamiento de imagenes más económicos. Stable Diffusion se basa en el trabajo previo del grupo CompVis de la Universidad Ludwig Maximilian de Munich, liderado por el profesor Björn Ommer.
La fácil accesibilidad significó que Stable Diffusion había conseguido más de 10 millones de usuarios en todo el mundo en solo dos meses, creando un momento en el que "las puertas estaban fuera de sus bisagras", según MIT Technology Review. Eso fue solo el principio.
De acuerdo con la licencia de Stable Diffusions, cualquiera puede usar el modelo para producir aplicaciones comerciales, estudiar su arquitectura, construir sobre él y modificar su diseño dentro del alcance de la ley, la ética y el sentido común. A diferencia de los modelos de imagen de código cerrado, Stable Diffusion se puede descargar y ejecutar en un PC con una tarjeta Gráfica para videojuegos, una GPU normal. Último modelo, SDXL 1.0, puede generar cuatro imágenes HD en menos de tres segundos.

Entrenamiento de Stable Diffusion

Además de las diferentes arquitecturas de modelos, los conjuntos de datos de imágenes masivas como JFT-300M (300 millones de imágenes) han ayudado a mejorar el rendimiento de la generación de imágenes.
Los actuales generadores de imágenes están preentrenados en LAION, o sus variantes, que son subconjuntos del conjunto de datos original 5B. Este conjunto de datos consta de 5.850 millones de pares imagen-texto filtrados por CLIP, de los cuales 2.320 millones contienen texto en inglés.
El entrenamiento inicial de Stable Diffusion costó aproximadamente 600.000 dólares y requirió el uso de 4.000 GPU en Amazon Web Services (AWS).

PL Segovia

Páginas

8 de noviembre de 2023

Stable Diffusion, Generación de imágenes con código abierto

No hay comentarios:

Publicar un comentario