0 00 2 min 4 ans 295

La portée des systèmes d’intelligence artificielle continue d’améliorer considérablement l’efficacité de leurs tâches au fil du temps.

Un vrai défi autant pour les ordinateurs que pour les humains

Un groupe de scientifiques a voulu améliorer l’efficacité de l’intelligence artificielle qui existe pour lire les lèvres des gens, en créant un modèle d’apprentissage automatique appelé Lip by Speech (LIBS).

Des chercheurs d’Alibaba, de l’Université du Zhejiang et du Stevens Institute of Technology ont participé au LIBS. Le système améliore le niveau de précision de la lecture labiale par rapport aux modèles précédents via les vidéos.

Pour son fonctionnement, LIBS génère des informations audio utiles à partir des vidéos des personnes qui y parlent à plusieurs échelles, alignant ensuite ces données obtenues avec les données vidéo identifiant la correspondance entre elles. Pour améliorer la reconnaissance, il utilise enfin un système de filtrage qui améliore ses caractéristiques.

Les composants de la reconnaissance vocale et de la lecture labiale dans LIBS utilisent une architecture séquence par séquence basée sur l’attention, attribuant des entrées vidéo aux étiquettes et aux valeurs.

Les chercheurs ont formé LIBS en utilisant cette architecture aux côtés des bases de données LRS2 et CMLR, qui contiennent respectivement 45 000 phrases en anglais de la BBC et 100 000 phrases de télévision en chinois chinois mandarin.

Source : Venturebeat

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.