M2 Parcours IA²VR – Communication parlée multimodale

Ce cours porte sur l’interaction parlée homme-machine. Cette interaction repose sur différentes modalités (voix, visage, gestes) qui portent des informations de nature linguistique (mots prononcés) et paralinguistique (état émotionnel du locuteur).
Ce cours abordera différents volets de la communication parlée et leur extension à un contexte multimodal: acquisition de données, reconnaissance de la parole et de traits paralinguistiques, synthèse expressive de la parole. Les techniques d’apprentissage sousjacentes (modèles de Markov, réseaux de neurones profonds) seront approfondies. Les notions seront expérimentées sur des données réelles en TD.

Pré-requis

  • Connaissances de base sur les probabilités.

Acquis d’apprentissage

  • Bases de traitement du signal audio.
  • Modélisation acoustique et linguistique de la parole.
  • Algorithmes de reconnaissance et de classification.
  • Algorithmes de synthèse.
  • Acquisition et exploitation de données (voix, visage, gestes).
  • Méthodes de reconnaissance et de synthèse multimodales.

Compétences visées

  • Analyser et traiter des données perceptives (image, parole, etc.) possiblement bruitées, interpréter un environnement visuel, extraire des informations contextuelles, enrichir la perception.
  • Préparer les données d’apprentissage, savoir en réduire la dimensionnalité, analyser la pertinence des caractéristiques, analyser les résultats d’apprentissage, évaluer la pertinence des différents modèles, combiner les modèles d’apprentissage.