M2 Parcours IA²VR – Communication parlée multimodale | Licence Informatique

Ce cours porte sur l’interaction parlée homme-machine. Cette interaction repose sur différentes modalités (voix, visage, gestes) qui portent des informations de nature linguistique (mots prononcés) et paralinguistique (état émotionnel du locuteur).
Ce cours abordera différents volets de la communication parlée et leur extension à un contexte multimodal: acquisition de données, reconnaissance de la parole et de traits paralinguistiques, synthèse expressive de la parole. Les techniques d’apprentissage sousjacentes (modèles de Markov, réseaux de neurones profonds) seront approfondies. Les notions seront expérimentées sur des données réelles en TD.

Pré-requis

Connaissances de base sur les probabilités.

Acquis d’apprentissage

Bases de traitement du signal audio.
Modélisation acoustique et linguistique de la parole.
Algorithmes de reconnaissance et de classification.
Algorithmes de synthèse.
Acquisition et exploitation de données (voix, visage, gestes).
Méthodes de reconnaissance et de synthèse multimodales.

Compétences visées

Analyser et traiter des données perceptives (image, parole, etc.) possiblement bruitées, interpréter un environnement visuel, extraire des informations contextuelles, enrichir la perception.
Préparer les données d’apprentissage, savoir en réduire la dimensionnalité, analyser la pertinence des caractéristiques, analyser les résultats d’apprentissage, évaluer la pertinence des différents modèles, combiner les modèles d’apprentissage.