Programmes des cours

Décoration

Cours spécifiques

Apprentissage statistique

Enseignants Patrick Gallinari et Olivier Schwander
Durée 28h de cours, 24h de TD/TP

L’apprentissage statistique est la composante majeure de la fouille de données. Le cours introduit les concepts fondamentaux du domaine et passe en revue les avancées récentes. Enjeux et méthodes sont illustrés sur des grandes classes d’application.

Outils pour le Cloud

Enseignant Olivier Schwander
Durée 20h de cours/TP

Objectif : découvrir la notion de cloud computing et le paradigme de programmation MapReduce utilisé pour réaliser des calculs distribués sur des données très volumineuses (plusieurs téra-octets)

  • Cloud computing
  • Machines virtuelles
  • Paradigme MapReduce
  • Stockage distribué de données
  • Utilisation des outils Hadoop et Spark

Big Data et ses applications

Enseignant Georges Uzbelger
Durée 26h

Cours spécialisés

Calcul haute performance, algorithmes parallèles d algèbre linéaire à grande échelle, stabilité numérique

Spécialité Mathématiques de la Modélisation
Enseignante Laura Grigori

Objectifs de l'UE : L'objectif de l'UE est de donner les notions de base permettant de concevoir des algorithmes numériques parallèles efficaces, ainsi qu'une introduction aux algorithmes les plus récents en algèbre linéaire numérique à grande échelle, une analyse de leur stabilité numérique, associée à une étude de leur complexité en terme de calcul et communication. Les opérations considérées correspondent aux étapes les plus coûteuses se trouvant au coeur de nombreuses simulations numériques complexes.

Thèmes abordés :

  • Introduction au calcul parallèle: survol des machines parallèles et modèles de programmation, introduction aux routines MPI pour programmer une machine parallèle, approches pour identifier le parallélisme dans les simulations numériques.
  • Algorithmes parallèles et leur stabilité numérique pour des opérations en algèbre linéaire numérique: méthodes d'orthogonalisation, problèmes aux moindres carrés, résolution des systèmes linéaires.
  • Une introduction aux algorithmes parallèles developpés ces dernières années minimisant les communications dans une machine parallèle, compromis parallélisation-stabilité.
  • Au-delà de l'algèbre linéaire, quelques exemples : algorithmes parallèles pour le calcul de la transformée de Fourier rapide, problèmes de partitionnement de domaines/graphes entre plusieurs processeurs.

Des travaux pratiques sur machines : Un TP sera consacré à l'utilisation des GPUs. Le cours comprend un projet qui sera réalisé sur une machine avec une centaine de processeurs.

Méthodes modernes et algorithmes pour le calcul parallèle

Spécialité Mathématiques de la Modélisation
Enseignant Frédéric Nataf

Objectifs : Il s'agit de donner aux étudiants les outils permettant de comprendre, analyser et mettre en oeuvre en Freefem++, les méthodes de décomposition de domaine pour les équations scalaires et les systèmes d'équation aux dérivées partielles.

Thèmes abordés :

  • Analyse d'une méthode de Schwarz avec recouvrement pour un opérateur elliptique
  • Cadre abstrait des méthodes additives
  • Méthode de Schwarz avec recouvrement
  • Nécessité et construction d'un espace grossier
  • Conditions d'interface optimisées :
  • Résultats de convergence par des méthodes énergétiques.
  • Applications à des problèmes non symétriques (convection-diffusion) ou non coercifs (Helmholtz).

Algorithmes Stochastiques : de la finance aux données massives

Spécialité Probabilités et Finance
Enseignant Gilles Pagès

Algorithmes stochastiques :

  • Algorithmes de Robbins-Monro, approximation stochastique.
  • Gradient et pseudo-gradients stochastiques.
  • Convergence p.s. et L2 par méthodes de martingales.
  • Vitesse L2, TCL et principe de moyennisation de Ruppert et Polyak.

Applications à l’apprentissage :

  • Algorithmes du bandit multi-bras pénalisé ou non, et application à l'allocation optimales d’actifs financiers.
  • Réduction de variance adaptative et recherche de corrélation implicite.
  • Eléments de théorie de la quantification optimale et de la distorsion. Malédiction de la dimension.
  • Applications aux probabilit´es num´eriques (espérances et espérances conditionnelles par cubature, arrêt optimal et options américaines, etc).
  • Algorithme de Lloyd 1 (k-means) et Competitive Learning Vector Quantization.
  • Application aux réseaux de neurones artificiels et à la classification automatique.
  • Réduction de dimension, cartes aut-organisatrices de Kohonen.

Massive parallel programming on GPU devices for Big Data

Spécialité Probabilités et Finance
Enseignant Benedikt Wilbertz
  • Introduction to the linux systems in the computer room
  • Cuda SDK components (libraries, nvcc, nsight)
  • Cuda architecture (SIMT principle + memory design)
  • Basic cuda language extensions
  • Basic programming examples (vector addition in parallel etc)
  • Principle of random number generation in parallel (Skip ahead vs batch approach)
  • Linear congruential random number generators
  • CURAND library and XORShift generators
  • Vector summation in parallel (reduction principle)
  • Concurrency and atomic operations
  • Monte-Carlo simulation for pricing derivates
  • Stochastic gradient algorithm for GPUs (HOGWILD)
  • Parallel design for word2vec algorithm with negative sampling
  • Introduction to cuDNN

Statistique et apprentissage

Spécialité Probabilités et Modèles Aléatoires
Enseignants Gérard Biau

Objectifs: : Ce cours vise à donner aux étudiants les bases fondamentales du raisonnement et de la modélisation statistique, tout en présentant une ouverture vers des thématiques de recherche contemporaines. L'accent sera particulièrement mis sur l'utilisation pratique des nouveaux objets rencontrés.

Prérrequis : Une bonne connaissance du calcul des probabilités et de l'algèbre linéaire.

Thèmes abordés :

  • Rappels de probabilités, estimation ponctuelle, estimation par intervalles, tests.
  • Modèle linéaire : estimation, intervalles de confiance et tests.
  • Introduction à l'apprentissage statistique et à la classication supervisée.
  • Minimisation du risque empirique, théorème de Vapnik-Chervonenkis.
  • Règles de décision non paramétriques (méthode des k plus proches voisins et arbres de décision).
  • Quantication et classi cation non supervisée.

Analyse statistique de graphes

Spécialité Statistique
Enseignante Catherine Matias

Objectif  apprendre à manipuler des données de type réseaux (sociaux, biologiques, internet, etc.)

Prérequis : notions fondamentales de Probabilités et Statistique, régression, logiciel R

  1. Graphes aléatoires et stockage informatique des données
  2. Statistiques descriptives des réseaux et visualisation des données
  3. Classification des nœuds

Gestion des données

Spécialité Statistique
Enseignant Olivier Schwander

Objectif : apprendre à charger et manipuler des données réelles, déployer une chaîne de traitement telle qu'utilisée en entreprise, comprendre les problèmes posés par la manipulation de données dans une application réelle. Ces points sont des préliminaires essentiels à l'intégration de méthodes avancées d'analyse de données dans des applications réelles.

Prérequis : connaissances basiques d'un langage de programmation

  1. Systèmes de gestion des bases de données (SQL et noSQL)
  2. Business Intelligence (ETL, Data Warehouse, OLAP)
  3. Extraction de données sur le web