image post
Médias · contenus

TTT-MLP : cette nouvelle technique d'IA permet de générer des épisodes de Tom et Jerry à partir de textes

Des chercheurs de NVIDIA, Stanford, UC San Diego, UC Berkeley et UT Austin ont développé un modèle d'IA capable de générer des vidéos d’animation d’un minute à partir de simples storyboards textuels.

Cette technologie, baptisée TTT-MLP, intègre des couches de Test-Time Training (TTT) qui augmentent la capacité des Transformers pré-entraînés en transformant leurs états cachés en réseaux neuronaux continuellement ajustables. Cette approche permet de maintenir une cohérence temporelle et une fluidité du mouvement, des aspects essentiels pour recréer des univers visuels souvent chaotiques en vidéo.

Le modèle se distingue par son aptitude à prolonger la durée de génération d’animations, une avancée notoire par rapport aux vidéos de quelques secondes produites par d’autres systèmes d’IA. Pour tester leur innovation, les chercheurs se sont appuyés sur un corpus basé sur les classiques cartoons de Tom et Jerry, générant ainsi des séquences narratives complexes où les personnages interagissent dans divers environnements, allant d’un bureau animé à des scènes en pleine ville. Malgré quelques artefacts et variations imprévues entre certaines séquences, TTT-MLP surpasse largement les modèles existants en termes de cohérence visuelle et esthétique.

Des modèles plus performants pour la génération de vidéo grâce à l'IA

L’intégration des couches TTT permet d’alléger les contraintes computationnelles associées aux mécanismes d’auto-attention traditionnels des Transformers. En substituant certains états cachés par des réseaux de neurones miniatures, le système parvient à gérer efficacement l’augmentation du nombre de tokens dans des séquences pouvant dépasser les 300 000 unités. Cette réinvention du processus de mémorisation a permis d’accroître significativement la qualité des vidéos inédites, en maintenant une consistance visuelle sur l’ensemble des scènes et en dynamisant le flux narratif.

Les chercheurs envisagent déjà des perspectives d’amélioration avec la possibilité d’étendre cette méthode à des vidéos de durée plus longue et à des narrations encore plus complexes. Ils laissent également entrevoir des pistes en termes d’optimisation de la performance, notamment en repensant l’implémentation de TTT-MLP pour réduire les problèmes de pression sur les registres et optimiser l’ordre d’exécution asynchrone. Ces avancées pourraient non seulement transformer la manière dont les vidéos narratives sont générées par l’IA, mais également ouvrir la voie à de nouvelles applications dans le domaine de l’animation et des effets spéciaux.

Sources

Partagez cet article