Algorithme : Des vidéos extrapolées à partir d’interviews audio (vidéo)

Algorithme : Des vidéos extrapolées à partir d’interviews audio (vidéo)

Des chercheurs ont développé des algorithmes capables de faire coller des mots aux lèvres d’un orateur et de faire comme s’il avait été filmé en direct.

Des chercheurs de l’Université de Washington ont présenté une vidéo très réaliste de l’ancien président américain Barack Obama s’exprimant sur des thèmes d’actualité. Pour la créer, ils se sont appuyés uniquement sur des archives sonores et vidéos. «Ce type de résultats n’avait jamais été dévoilé», s’est félicitée Ira Kemelmacher-Shlizerman, professeure adjointe.

Pour synchroniser les lèvres de l’orateur avec le texte, le système convertit des fichiers audio d’un individu en formes de bouches réalistes. Celles-ci sont ensuite greffées et mélangées avec le visage de cette personne à partir d’une autre vidéo existante. «Les gens sont particulièrement sensibles à toutes les régions de votre bouche qui ne semblent pas réalistes», a déclaré Supasorn Suwajanakorn, auteur principal de l’étude. «Si vous ne faites correctement les dents ou si le menton bouge au mauvais moment, les gens peuvent le repérer tout de suite et ça va sonner faux. Donc vous devez rendre la zone de la bouche parfaite».

Pour leurs tests, les scientifiques ont choisi Barack Obama dont les heures de vidéos enregistrées durant son mandat présidentiel ont permis de satisfaire l’appétit de l’apprentissage automatique par la machine. Techniquement, un réseau neuronal convertit d’abord les sons d’un fichier audio sous la forme de bouches basiques. Ensuite, le système greffe et mélange toutes ces formes de bouches sur une vidéo cible existante et ajuste le timing pour créer une nouvelle vidéo réaliste dont les propos sont synchronisés aux lèvres de l’orateur.

Vérifier si une vidéo est authentique

Comme débouchés pratiques, la professeure Ira Kemelmacher-Shlizerman cite l’amélioration de la qualité des vidéoconférences pour les réunions et des entretiens vidéo créés à posteriori avec une figure historique à partir d’une archive audio. La technologie pourrait permettre également d’assurer des conversations vidéo en ligne de bonne qualité. «Lorsque vous regardez Skype ou Google Hangouts, souvent la connexion est instable et en basse résolution. C’est vraiment désagréable alors qu’en même temps l’audio est très bon, a Steve Seitz, co-auteur de l’étude. Donc, si vous pouviez utiliser l’audio pour produire une vidéo de beaucoup plus haute qualité, ce serait formidable.»

En inversant le processus, c’est-à-dire en injectant d’abord la vidéo en lieu et place de la simple bande sonore, l’équipe dit être capable de développer des algorithmes qui pourraient détecter si une vidéo est bien réelle ou trafiquée. La société canadienne Eerie avait récemment fait la démonstration de son service Lyrebird capable d’imiter une voix à partir d’un simple échantillon audio de moins d’une minute.

(L’essentiel/laf)

Source : lessentiel.lu

Voir aussi

Laisser un commentaire

Votre adresse électronique ne sera pas publiée. Les champs Exigés sont marqués avec *

Cancel reply