Google apprend à parler… et à improviser au piano

Google apprend à parler… et à improviser au piano
Image d'illustration : Un mannequin derrière un phonographe Denny Simmons/AP/SIPA

L’IA de Google s’essaie à l’improvisation. Après la peinture surréaliste en 2015, ses algorithmes s’emparent de l’expression orale et musicale.

RÉSEAUX NEURONAUX. DeepMind, succursale de Google spécialisée dans les réseaux neuronaux et le machine learning (littéralement, des machines apprenantes), n’a de cesse de nous surprendre. La filiale R&D du géant du web a publié un article présentant les percées de son projet WaveNet en matière de synthèse vocale. L’intérêt ? Des voix artificielles beaucoup plus proches des voix humaines. En s’appuyant sur un grand nombre d’enregistrements, les algorithmes auto-apprenants parviennent à affiner leur timbre sonore.

Synthèse vocale : la voix de son maître

En matière de synthèse vocale (depuis un texte écrit, appelée TTS pour text to speech) s’affrontaient jusqu’alors deux écoles. La première, dite méthode paramétrique, consiste à produire les sons à partir d’un modèle de voix (intégrant par exemple sa fréquence fondamentale, son étendue spectrale, sa prosodie…), tandis que la seconde, concaténative, est adossée à un large catalogue de syllabes. L’ordinateur les agrège ensuite dans l’ordre requis par la phrase. Mais ces techniques souffrent d’un criant manque de naturel dans leur élocution, point sur lequel DeepMind s’en sort légèrement mieux. Jugez-en à partir des extraits ci-dessous (en anglais) :

Synthèse paramétrique

Synthèse concaténative

Synthèse WaveNet

 

La différence technique ? Le recours à des réseaux neuronaux artificiels (dits réseaux convolutifs) afin d’aider l’ordinateur à tout apprendre (deep learning) d’une voix et de ses multiples intonations. Il faut tout de même alimenter l’algorithme avec de nombreux enregistrements vocaux, en précisant à chaque fois le texte lu pour que le logiciel puisse établir les équivalences morpho-phonétiques entre lettres et sons. En l’absence de texte, pas de problème : l’ordinateur improvise et tente de deviner le déroulement de la phrase en raisonnant par probabilités. Le résultat ? Un étrange charabia qui n’est pas sans rappeler celui des jeunes bambins apprenant à parler.

 

WaveNet apprend à parler anglais (même si on n’y comprend rien)

Le deep learning, ou la créativité des machines

Mais WaveNet ne limite pas ses babillages à la seule expression verbale : en alimentant l’algorithme avec un vaste répertoire de musique jouée au piano, les chercheurs de Google font de WaveNet… un outil d’improvisation musicale, capable de se lancer dans de véritables envolées mélodiques (légèrement vexantes pour les êtres humains devant pratiquer durant de nombreuses années pour atteindre un tel niveau).

 

WaveNet improvise au piano (et il joue mieux que moi)

 

Peut-on enseigner la créativité aux machines ? Google n’en est pas un coup d’essai, et avait déjà frappé fort en 2015 en dévoilant le (cauchemardesque) générateur d’hallucinations visuelles Deep Dream. Basé sur un algorithme de reconnaissance visuelle, il amplifie un vaste répertoire de formes identifiables par l’être humain.

 

Image générée par Deep Dream (en l’absence de toute prise de drogue)

Là où DeepDream représentait un gadget amusant, WaveNet laisse entrevoir des applications très prometteuses du côté de la synthèse vocale, marché très concurrentiel aujourd’hui dominé par Apple et son célèbre assistant vocal Siri. De là à entendre, un jour, son smartphone parler avec la voix de Scarlett Johansson comme dans « Her » de Spike Jonze ?

 

 

Sarah Sermondadaz

Source: sciencesetavenir.fr

Lamia Siffaoui
ADMINISTRATOR
PROFILE

Voir aussi

Laisser un commentaire

Votre adresse électronique ne sera pas publiée. Les champs Exigés sont marqués avec *

Cancel reply