Contrefaire une vidéo ? C’est désormais (beaucoup trop) facile

Contrefaire une vidéo ? C’est désormais (beaucoup trop) facile
Il est désormais possible de détourner des vidéos à la volée, à l'aide d'une simple webcam. J. THIES ET AL.

Oubliez FaceSwap. Avec Face2Face, développé par des chercheurs allemands et américains, il est désormais possible de plaquer à l’aide d’une webcam n’importe quelle expression faciale sur le visage animé d’un orateur dans une vidéo.

« Mais si, c’est vrai, j’ai vu la vidéo sur Internet ! » Cette phrase vous dit forcément quelque chose. Pourtant, les vidéos aussi s’ouvrent à la contrefaçon. Chacun est aujourd’hui sensibilisé aux risques de mésinformation et autres propagations d’intox sur les réseaux. Mais l’information n’est pas qu’écrite : elle se propage aussi sous forme d’images (voire de mèmes) ou de vidéos. Il était déjà facile de retoucher ou truquer une image statique. La vidéo semble en train de vivre une révolution de la même ampleur.  Retour sur un travail précurseur, publié mi 2016 par des chercheurs allemands et américains, qui montre avec quelle facilité déconcertante des vidéos contrefaites peuvent être produites. Du grain à moudre à l’époque des « faits alternatifs ».

Jouer aux marionnettes avec des vidéos Youtube

Le programme, intitulé « Face2Face », a été mis au point par l’université de d’Erlangen-Nuremberg, l’institut Max Planck et l’université de de Stanford. Il permet de plaquer la voix et l’expression faciale d’un acteur sur une cible animée. Et le tout avec un réalisme confondant, en quasi temps réel, puisque le décalage entre la source et la cible n’est que de 3 images (soit environ 100 ms si le frame rate de la vidéo est de 30 images par secondes). Largement de quoi tromper l’œil et sa persistance rétinienne.

Les secrets de fabrication ? Une simple webcam projetée sur un acteur, couplée à un modèle colorimétrique capable d’identifier pas moins de 76 expressions faciales. En guise de terrain de jeu, les scientifiques ont choisi un vaste répertoire de vidéos Youtube. Comme le diable se cache souvent dans les détails, un grand souci de vraisemblance est accordé aux mouvements de bouche, qui sont souvent le talon d’Achille de ce type de programme. « Nous introduisons une nouvelle approche capable de synthétiser des mouvements réalistes de l’intérieur de la bouche, à partir d’une bibliothèque prédéfinie », écrivent les chercheurs. « La version correspondant le mieux à l’expression ciblée est réincorporée à la vidéo afin d’obtenir une déformation réaliste. »

Présentation du projet Face2Face / © Matthias Niessner

Des effets spéciaux à portée de smartphone

Ce type de traitement a longtemps été l’apanage du cinéma et de ses effets spéciaux, qui prennent aujourd’hui un tour surnaturel en permettant de faire jouer des acteurs… non présents sur le tournage. Mais ils ont longtemps requis une puissance de calcul phénoménale, impliquant de pré-calculer les scènes pendant de longues heures de rendu. Un impératif dont s’affranchit Face2Face, qui permet de « doubler » à la volée non seulement la voix mais aussi les expressions faciales de quelqu’un.

Le principe n’est en fait pas (tout à fait) nouveau, et évoque celui de l’application FaceSwap, bien connue des plus jeunes : elle permet d’échanger les visages de deux protagonistes sur n’importe quelle photographie. Dans le même registre, l’application russe FaceApp vous propose des versions alternatives de votre visage : plus vieux, plus jeune, en changeant de genre, voire… en y accolant un large sourire. Un usage pour l’instant de l’ordre du selfie gadget, mais qui montre la simplicité avec laquelle les expressions humaines, fussent-elles animées, peuvent être truquées.

Les ordinateurs, derniers arbitres de la vérité ? 

Faut-il dans ces conditions tout bonnement cesser de se fier aux images ? En fait, les artefacts produits par le traitement Face2Face sont minimes, mais ils existent dans certaines conditions particulières. « Lorsque la séquence est trop courte, que les ombres sont très contrastées, ou qu’il y a des reflets sur le visage, on peut observer des effets parasites », décrivent Justus Thies et son équipe. Une limitation d’ailleurs partagée par la plupart des méthodes actuelles.  De même, « les cheveux ou la barbe peuvent poser des difficultés, car ils cachent une partie du visage. Les détails de surface sont aussi éliminés ». L’expressivité plutôt que la précision parfaite, donc.

Des détails qui pourraient ainsi aider à confondre la nature truquée de telles images, ajoutés à l’inévitable décalage temporel « d’environ 3 images » entre le flux vidéo de la caméra et le flux vidéo restitué. Mais uniquement à l’aide d’un ordinateur capable de traquer ce type d’indice, et en quelque sorte de lire entre les lignes. Ces technologies rappellent en tout cas l’impératif d’un archivage indépendant des vidéos sur Internet, afin d’éviter que l’Histoire puisse être réécrite.

Exemples de jeux d’ombre et de lumière avec Face2Face 

 

Sarah Sermondadaz

Source: sciencesetavenir.fr

Lamia Siffaoui
ADMINISTRATOR
PROFILE

Voir aussi

Laisser un commentaire

Votre adresse électronique ne sera pas publiée. Les champs Exigés sont marqués avec *

Cancel reply