La neuvième journée de rencontres et d'échanges organisée
par le réseau LoOPS aura lieu le jeudi 7 avril 2016 au
LAL Grand Amphi - Salle 203 (ateliers). Elle aura pour thème:
Apache Spark : la distribution de calculs selon Hadoop
Journée LoOPS soutenue par le réseau national de développeurs DevLOG.
Merci à nos intervenants : Julien Nauroy (DI, U-PSUD), Prosper Burq (CMAP Polytechnique), Maryan Morel (CMAP Polytechnique), André Schaaff (CDS Strasbourg)
Programme
9h00-9h30 Accueil
9h30-10h10 Le paradigme MapReduce - J. Nauroy [Présentation: PDF]
10h10-10h45 Présentation de Spark - J. Nauroy [Présentation: PDF]
10h45-11h00 REX : Architectures Matérielles (retour Hardware) - P. Burq [Présentation: PDF]
11h00-11h20 Pause
11h20-11h50 REX : Ecosystème - P. Burq [Présentation: PDF]
11h50-12h20 REX : Machine Learning with Spark - M. Morel [Présentation: PDF]
12h20-12h45 REX : Application en Astrophysique : Cross Match de catalogues de sources - A. Schaaff [Présentation: PDF]
12h45-13h45 Déjeuner
13h45-15h00 Atelier Spark Tronc Commun - J. Nauroy
Durant la matinée, vous découvrirez le paradigme de distribution MapReduce, qui est à la base de la majorité des outils estampillés Hadoop et Big Data.
Vous seront ensuite présentés le framework Apache Spark, qui se libère de l'aspect "Big Data" pour offrir un modèle de distribution de calculs beaucoup plus générique, ainsi qu'un retour d'expérience de l'utilisation de Spark en laboratoire.
Des retours d'expériences vous seront donnés sur les architectures matérielles, l'écosystème (vendeurs commerciaux qui distribuent la solution Open-Source, projets apache connexes et grands acteurs du milieu), l'utilisation des librairies de Machine learning ainsi que sur l'application de Spark pour résoudre une problématique en astrophysique.
L'après-midi, un atelier vous permettra de réaliser vos premiers programmes en Spark, vous permettant de distribuer de façon extrêmement simple vos calculs et vos données sur un cluster.
Vous aurez ensuite la possibilité de choisir un atelier Machine Learning, ou bien de continuer avec des exercices de complexité croissante vous amenant à manipuler la plupart des primitives de Spark.
S’agissant du TP de ML, il est très largement basé sur l’exercice du AMPCAMP 5.
Installation soft pour l'atelier
Deux options s'offrent à vous pour préparer l'atelier :
- Si vous êtes référencé-e dans l'annulaire Adonis de Paris-Sud, vous pouvez demander un compte d'accès à la plate-forme Hadoop à l'adresse suivante : Compte accès plate-forme
Le formulaire d'inscription est dans la section "Demander un compte". Cet accès vous permettra d'utiliser la plate-forme à l'issue de la formation sans limite de temps.
Pour les personnes non enregistrées dans l'annuaire, un compte temporaire à cette plate-forme vous sera fourni le jour de la formation. Il restera valide quelques jours seulement.
- Si vous souhaitez installer Hadoop sur votre machine, le plus simple est de télécharger l'image de la distribution Cloudera via l'adresse suivante : Cloudera Distribution
Télécharger CDH 5.5.
Vous aurez également besoin de télécharger des données utilisées dans le TP à l'adresse suivante : Données TP_Spark Avancé
Pour le TP Machine Learning, c'est ici : Données TP_Machine Learning
Inscriptions
L'inscription est gratuite mais obligatoire pour nous permettre
de préparer au mieux cette journée. Veillez également à obtenir un ordre de mission
(éventuellement sans frais) auprès de votre unité ou de votre tutelle.