Parcours IL / Orientation MFLS
L’objectif de ce cours est d’introduire les problématiques liées à l’analyse de données massives ainsi que leur mise en œuvre, sous deux volets complémentaires. Le premier porte sur l’ingénierie de données à travers la présentation de deux systèmes distribués de gestion de données non relationnels et sur les principes et les algorithmes de machine learning pour extraire des connaissances à partir de données massives. Le second volet porte sur les plateformes d’analyse de données de type Big Data, en particulier Hadoop et Spark et le modèle algorithmique sous-jacent, Map-Reduce.
Prérequis
- Programmation Java
- Connaissances usuelles en algorithmique
- Systèmes de gestion de données relationnels.
Acquis d’apprentissage
- Comprendre les caractéristiques d’un système de gestion de données distribué noSQL
- Comprendre les notions et enjeux associés au machine learning
- Fonctionnement et utilisation d’Hadoop/Spark ainsi que du système de fichier HDFS.
- Développer un programme de type Map-Reduce.
Compétences visées
- Concevoir et développer des systèmes logiciels sûrs et sécurisés.
- Maîtriser des technologies en évolution constante, les méthodes, les outils de conception et de développement de logiciels et de bases de données.
- Savoir utiliser deux systèmes noSQL (en configuration distribuée)
- Savoir utiliser les librairies spécialisées pour faire du machine learning sur des données tabulaires
- Utilisation d’un parallélisme simple pour réduire le temps d’analyse.