Traitement de données massives

Parcours IL / Orientation IL

L’objectif de ce cours est d’introduire les problématiques liées à l’analyse de données massives ainsi que leur mise en œuvre, sous deux volets complémentaires. Le premier porte sur l’ingénierie de données à travers la présentation de deux systèmes distribués de gestion de données non relationnels et sur les principes et les algorithmes de machine learning pour extraire des connaissances à partir de données massives. Le second volet porte sur les plateformes d’analyse de données de type Big Data, en particulier Hadoop et Spark et le modèle algorithmique sous-jacent, Map-Reduce.

Prérequis

  • Programmation Java.
  • Connaissances usuelles en algorithmique.
  • Systèmes de gestion de données relationnels.

Acquis d’apprentissage

  • Comprendre les caractéristiques d’un système de gestion de données distribué noSQL
  • Comprendre les notions et enjeux associés au machine learning
  • Fonctionnement et utilisation d’Hadoop/Spark ainsi que du système de fichier HDFS.
  • Développer un programme de type Map-Reduce.

Compétences visées

  • Concevoir et développer des systèmes logiciels sûrs et sécurisés.
  • Maîtriser des technologies en évolution constante, les méthodes, les outils de conception et de développement de logiciels et de bases de données.
  • Savoir utiliser deux systèmes noSQL (en configuration distribuée)
  • Savoir utiliser les librairies spécialisées pour faire du machine learning sur des données tabulaires
  • Utilisation d’un parallélisme simple pour réduire le temps d’analyse.

Parcours IL / Orientation IL