lumiere-ia-google-capaz-transformar-texto-imagenes-videos-hasta-5-segundos-calidad-ultra-realista

Google ha lanzado Lumiere, un modelo de difusión espaciotemporal impulsado por IA, capaz de transformar texto e imágenes en vídeos de hasta 5 segundos con una calidad ultra realista.

El equipo de investigadores de Google ha trabajado en conjunto con el Instituto Weizmann de Ciencias y la Universidad de Tel Aviv para desarrollar este modelo, que se  ha entrenado con un conjunto de 30 millones de vídeos con sus subtítulos de texto y que es capaz de generar 80 fotogramas a 16 fps.

Vídeos realistas y con movimiento dinámico

Lumiere, tiene la capacidad de convertir palabras e imágenes estáticas en secuencia de vídeo con un gran nivel de realismo. Lo que diferencia a su modelo de otras IA generadoras de vídeo según explica Google es que estas “sintetizan fotogramas clave distantes seguidos de superresolución temporal, un enfoque que inherentemente hace que sea difícil lograr una coherencia temporal global”, lo que resulta en creaciones que poco realistas y con movimientos poco dinámicos.

Considerando estas limitaciones, el equipo de investigadores de Google se han aventurado en cambiar la arquitectura para dar vida a un modelo que puede construir un vídeo en su totalidad de una sola vez, permitiendo movimientos más realistas y naturales.

Tecnología y funciones de Lumiere

Google ha publicado un documento que explica la tecnología de Lumiere y lo ha presentado en su propia página de Github. Aunque Lumiere todavía no ha sido lanzado oficialmente ni puede probarse en una beta, Google ha dejado varios ejemplos de su capacidad y funcionamiento en su página de Github.

Lumiere es un modelo de generación de vídeo que tiene varias funciones, incluyendo la creación de nuevos estilos a partir de una imagen de referencia, la estilización de vídeo, la animación de partes de una imagen estática, la capacidad de rellenar con bastante exactitud vídeos inacabados o que tienen zonas cortadas, y la modificación en tiempo real de partes de un vídeo. En el vídeo de ejemplo del modelo, se muestra cómo convierte a una mujer y a un perro en figuras de origami, o cómo serían si estuvieran hechos de bloques de madera.

Asimismo, es una herramienta muy útil para expandir el contexto de un vídeo y para cambiar partes de un vídeo, como la ropa que trae una persona por otra a partir de una descripción en texto o incluso borrar elementos no deseados.

Fuente: Marketing4ecommerce.net