Para visibilizar las nuevas tendencias dentro de los ámbitos informativos y su impacto en la sociedad, el Observatorio para la Innovación de los Informativos en la Sociedad Digital (OI2), impulsado por la Universidad Autónoma de Barcelona (UAB) y Radio Televisión Española (RTVE) lleva a cabo investigaciones sobre las tecnologías de inteligencia artificial (IA) en el campo de la creación de vídeos a partir de texto.
Dentro de este contexto, la Cátedra UAB estudia las diferentes herramientas que existen, los medios de comunicación que utilizan estas tecnologías, e identifican investigaciones importantes que aportan a un marco teórico referencial del tema. Una de las investigaciones relevantes se llevó a cabo por la Universidad de Cornell, en Estados Unidos, en la que identificaron la herramienta de IA Make-A-Video con ventajas superiores a las de otros modelos de creación de vídeos a partir de texto.
Make-A-Video es una herramienta que pertenece a Meta AI, un laboratorio de inteligencia artificial. Esta herramienta permite convertir el texto en imágenes y vídeos, tan solo se debe describir al sistema lo que se quiere y, a partir del aprendizaje automático, genera el contenido.
Según el estudio de Cornell, elaborado en 2022, Make-A-Video ofrece tres ventajas significativas: acelera el entrenamiento del modelo T2V (text to video) sin necesidad de aprender representaciones visuales y multimodales desde cero, no requiere de datos emparejados de texto y video y el generado de los videos hereda la inmensidad de los modelos actuales de generación de imágenes, como su diversidad estética, representaciones fantásticas, entre otras.
La investigación comparó Make-A-Video con otros sistemas de inteligencia artificial de texto a vídeo (T2V) existentes, para presentar resultados y evaluaciones del funcionamiento y diferencias entre los modelos. Por ejemplo, se comparó la generación T2V con CogVideo, VDM y FILM.
Los investigadores de la Universidad de Cornell concluyeron que su modelo se puede utilizar para una variedad de otras tareas como animación de imágenes y variación de vídeo, pues Make-A-Video puede generar contenido más rico con consistencia, movimiento y correspondencia de texto. Además, su modelo genera interpolación más semánticamente significativa, mientras que otros modelos parecen hacer transiciones suaves entre fotogramas sin una comprensión semántica real de lo que está en movimiento en el vídeo.
Así como los humanos aprenden rápidamente y de forma constante, los sistemas generativos aprenden dinámicas para su funcionamiento. Este trabajo presentado ofrece datos importantes para abordar y comprender los diferentes procesos de IA, y revelar conclusiones que abren paso a trabajos futuros. La Cátedra RTVE-UAB está comprometida a continuar la labor para identificar, evaluar y difundir información relevante dentro del campo de la inteligencia artificial en busca de un desarrollo eficaz de la práctica periodística y la sociedad en general.