Description

Décoration

Contexte

La problématique des données massives (big data) a émergé depuis quelques années comme conséquence des capacités accrues de capture, de stockage et de vitesse de transmission des informations.

Cette problématique est omniprésente et se rapporte à des types de données de formes très différentes dans des domaines qui peuvent être liés à des expériences scientifiques comme pour le grand collisionneur de hadrons (LHC au CERN), où le nombre de capteurs peut monter jusqu'à des centaines de millions délivrant des données d'observation plusieurs millions de fois par seconde ou la description et transcription du génome qui pour les humains comporte de l'ordre de 30 milliards de paires de base, ou bien les données en climatologie, avec la terre comme laboratoire, ou encore des sondages, la finance haute fréquence, analyses de tendance diverses ou comportement sur par exemple la toile des 2.5 milliards d'internautes dans le monde.

Cette problématique a pris une identité : la datamasse ("big data" en anglais) correspondant à des critères tels que les trois "V" initiaux :

  • Volume,
  • Vélocité,
  • Variété,

auxquels se sont adjoint la Validité et la Volatilité et des programmes de recherche sont montés ici et là pour en trouver des clefs.

En effet, cette quantité de données lance d'une part un défi pour les rendre intelligibles et en tirer de l'information pertinente et d'autre part revêt un attrait important pour les scientifiques mais également les commerciaux, sondeurs et industriels; les besoins et la demande sont donc énormes et ne peuvent qu'augmenter.

Objectifs et pré-requis

Aucune méthode universelle ne peut répondre aux défis du big data mais tous les domaines des sciences sont requis, au premier rang desquels les mathématiques et l'informatique. L'objectif de ce certificat est d'offrir aux étudiants inscrits dans une spécialité du master Mathématiques et Applications de l'UPMC des compétences pluridisciplinaires leur permettant d'aborder des problèmes du big data. Ainsi, profitant d'enseignements réalisés par des mathématiciens et des informaticiens spécialistes des statistiques, de l'apprentissage, des grandes masses de données, les titulaires d'un master de mathématiques ayant suivi ce certificat auront des clefs pour résoudre les problèmes du big data.

En pré-requis, les étudiants devront justifier d'une certaine aisance dans les langages de programmation scientifique (R, Python, Matlab ou autres) et avoir une ouverture sur les applications des mathématiques en ayant suivi quelques cours par exemple en optimisation, probabilités ou statistiques.