Analyse et indexation de documents multimédias

Objectifs

Familiariser les étudiants avec les outils de traitement d’images de documents numérisés en mettant en avant les problèmes d’extraction de l’information dans ces images, notamment les techniques de segmentation (physique en blocs et analyse de contenu) en formes et en contenu. L’étudiant sera également initié aux approches de recherche d’information dans les documents ainsi qu’à leur indexation par le contenu et indexation sociale (tags).

Prérequis

Master M1 en Informatique ou niveau équivalent

Contenu pédagogique de l’UE

Les notions abordées dans ce cours porteront à la fois sur des aspects fondamentaux mais également des aspectspratiques de l’analyse et de l’indexation de documents multimédia.

  • Introduction à l’analyse de documents multimédia : domaines d’applications, problèmes à résoudre (représentation des données, modélisation, reconnaissance, estimation, évaluation d’un système).
  • Numérisation et prétraitements : problèmes de capture, techniques de compression, filtrage, deskewing, banalisation d’images de niveaux de gris
  • Extraction de la forme : techniques de segmentation (ascendante, descendante), qualification des blocs par des descripteurs, techniques de classification en objets (textuel, graphique (signatures), images (photos, logos))
  • Extraction du contenu : OCR, recherche de mots : méthodes de spotting, recherche de blocs par des expressions régulières
  • Indexation de documents multimédia : approches pour l’indexation par contenu et approches pour l’indexation/ré-indexation sociale (exploitation des tags laissés par les utilisateurs et de l’utilisation qui est faite des documents multimédia)

Mise en œuvre et applications :

  • Mise en œuvre, sur des problèmes concrets et des exemples représentatifs en reconnaissance de caractères, reconnaissance de documents.
  • Utilisation de plateformes (WEKA, locale, etc.) permettant à chaque étudiant de s’exercer sur les techniques de traitement d’images.