Traitement de données massives | Licence Informatique

Parcours IL / Orientation IL

L’objectif de ce cours est d’introduire les problématiques liées à l’analyse de données massives ainsi que leur mise en œuvre, sous deux volets complémentaires. Le premier porte sur l’ingénierie de données à travers la présentation de deux systèmes distribués de gestion de données non relationnels et sur les principes et les algorithmes de machine learning pour extraire des connaissances à partir de données massives. Le second volet porte sur les plateformes d’analyse de données de type Big Data, en particulier Hadoop et Spark et le modèle algorithmique sous-jacent, Map-Reduce.

Prérequis

Programmation Java.
Connaissances usuelles en algorithmique.
Systèmes de gestion de données relationnels.

Acquis d’apprentissage

Comprendre les caractéristiques d’un système de gestion de données distribué noSQL
Comprendre les notions et enjeux associés au machine learning
Fonctionnement et utilisation d’Hadoop/Spark ainsi que du système de fichier HDFS.
Développer un programme de type Map-Reduce.

Compétences visées

Concevoir et développer des systèmes logiciels sûrs et sécurisés.
Maîtriser des technologies en évolution constante, les méthodes, les outils de conception et de développement de logiciels et de bases de données.
Savoir utiliser deux systèmes noSQL (en configuration distribuée)
Savoir utiliser les librairies spécialisées pour faire du machine learning sur des données tabulaires
Utilisation d’un parallélisme simple pour réduire le temps d’analyse.

Parcours IL / Orientation IL