El modelo Phenaki de Google puede generar videos largos basados en texto

La compañía mostró cómo está escalando tecnologías útiles en todo el mundo.

Estamos bastante acostumbrados a los modelos de texto a imagen que aparecen cada vez con más frecuencia, pero las herramientas de texto a video siguen siendo algo novedosas. Google ha presentado un video de súper resolución generado por IA hecho con Phenaki, "un modelo capaz de síntesis de video realista dada una secuencia de indicaciones textuales". Lo que lo hace destacar es su capacidad para crear videos extensos, de hasta varios minutos.

Phenaki se creó para abordar los problemas del costo computacional, las cantidades limitadas de datos de texto y video de alta calidad y las longitudes variables de los videos que enfrentan los modelos de texto a video. Este modelo causal para aprender la representación de video comprime el video en una pequeña representación de tokens discretos.

"Para generar tokens de video a partir de texto, estamos utilizando un transformador enmascarado bidireccional condicionado a tokens de texto precalculados. Los tokens de video generados se destokenizan posteriormente para crear el video real".

Con suerte, veremos más de la tecnología pronto, ya que Google prometió llevar sus herramientas de texto a imagen a AI Test Kitchen pronto.

Obtén más información sobre las IA de Google en esta publicación de blog. Y no olvides seguir a Nonsense

El modelo Phenaki de Google puede generar videos largos basados en texto

Entradas relacionadas

Comments