Microsoft dévoile VASA-1, son modèle d'IA qui anime les portraits

Dans une avancée significative pour l'intelligence artificielle générative, Microsoft a présenté VASA-1, un projet capable de transformer n’importe quelle photographie de portrait en vidéo parlante hyperréaliste. Cette technologie promet de révolutionner la création de contenu numérique tout en soulevant des questions éthiques importantes.

Le projet VASA-1 de Microsoft utilise l'intelligence artificielle pour générer des vidéos de personnes qui parlent à partir d'une simple photo d'eux et d'un enregistrement audio de leur voix. La démonstration montre des visages animés avec des expressions et des mouvements de tête naturels, synchronisés avec précision à l'audio. Cette prouesse technique, qui n'est pas sans rappeler Vlogger de Google, est le résultat d'application de méthodes avancées en deep learning, permettant à l'IA de produire des vidéos en haute définition à une cadence de 40 images par seconde.

Bien que cette technologie ouvre des possibilités intéressantes pour l'animation de portraits et la création d'avatars numériques, elle soulève également et bien entendu des inquiétudes légitimes concernant la prolifération des deepfakes. Microsoft a pris soin de souligner que VASA-1 est actuellement une démo de l'état de l'art dans la recherche et qu'il n'y a pas de plans immédiats pour une sortie de produit ou d'API, dans le but de prévenir toute utilisation malveillante.

Implications et précautions éthiques

La capacité de VASA-1 à traiter des images et des audios qui n'étaient pas présents dans la phase d'apprentissage de l'IA est particulièrement impressionnante. Cela fonctionne avec des portraits, des photos artistiques et générer des discours dans différentes langues. Les chercheurs ont même réussi à faire parler des œuvres d'art célèbres, comme La Joconde. Comme évoqué plus haut, Microsoft reste conscient des risques potentiels de détournement et insiste sur le fait que cette technologie n'est pas destinée à créer du contenu trompeur.

Pour atténuer ces risques de mésusage, Microsoft affirme explorer des applications responsables de VASA-1, notamment dans la détection des falsifications. Les vidéos générées contiennent encore des artefacts identifiables, ce qui indique que la technologie n'a pas encore atteint le niveau d'authenticité des vraies vidéos. Mais pour combien de temps encore ? Microsoft s'engage à ne pas publier de démo en ligne ou de produit tant que la sécurité et l'utilisation responsable de la technologie ne sont pas garanties.