#FORMATION BIG DATA
MISE EN ŒUVRE DE TRAITEMENTS AVEC SPARK
METTRE EN ŒUVRE SPARK POUR OPTIMISER DES CALCULS
FORMATION BIG DATA – MISE EN ŒUVRE DE TRAITEMENTS AVEC SPARK
METTRE EN ŒUVRE SPARK POUR OPTIMISER DES CALCULS
INTRODUCTION
Présentation de Spark
Origine du projet
Apports et principes de fonctionnement
Langages supportés
Mise en oeuvre sur une architecture distribuée
Architecture : clusterManager, driver, worker, …
PREMIERS PAS
Utilisation du Shell Spark avec Scala ou Python
Modes de fonctionnement
Interprété, compilé
Utilisation des outils de construction
Gestion des versions de bibliothèques
Mise en pratique en Java, Scala et Python
Notion de contexte Spark
Extension aux sessions Spark
RÈGLES DE DÉVELOPPEMENT
Mise en pratique en Java, Scala et Python
Notion de contexte Spark
Différentes méthodes de création des RDD : depuis un fichier texte, un stockage externe
Manipulations sur les RDD (Resilient Distributed Dataset)
Fonctions, gestion de la persistance
CLUSTER
Différents cluster managers : Spark interne, avec Mesos, avec Yarn, avec Amazon EC2
Architecture : SparkContext, SparkSession, Cluster Manager, Executor sur chaque noeud
Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
Mise en oeuvre avec Spark et Amazon EC2
Soumission de jobs, supervision depuis l’interface web
TRAITEMENTS
Lecture/écriture de données : texte, JSon, Parquet, HDFS, fichiers séquentiels
Jointures
Filtrage de données, enrichissement
Calculs distribués de base
Introduction aux traitements de données avec map/reduce
SUPPORT CASSANDRA
Description rapide de l’architecture Cassandra
Mise en oeuvre depuis Spark
Exécution de travaux Spark s’appuyant sur une grappe Cassandra
DATAFRAMES
Spark et SQL
Objectifs : traitement de données structurées
L’API Dataset et DataFrames
Optimisation des requêtes
Mise en oeuvre des Dataframes et DataSet
Comptabilité Hive
Travaux pratiques : extraction, modification de données dans une base distribuée
Collections de données distribuées
Exemples
STREAMING
Objectifs , principe de fonctionnement : stream processing
Source de données : HDFS, Flume, Kafka, …
Notion de Streaming
Contexte, DStreams, démonstrations
Travaux pratiques : traitement de flux DStreams en Scala
Watermarking
Gestion des micro-batches
Travaux pratiques : mise en oeuvre d’une chaîne de gestion de données en flux tendu (IoT, Kafka, SparkStreaming, Spark)
Analyse des données au fil de l’eau
INTÉGRATION HADOOP
Rappels sur l’écosystème Hadoop de base : HDFS/Yarn
Création et exploitation d’un cluster Spark/YARN
Intégration de données sqoop, kafka, flume vers une architecture Hadoop et traitements par Spark
Intégration de données AWS S3
MACHINE LEARNING
Fonctionnalités : Machine Learning avec Spark, algorithmes standards, gestion de la persistance, statistiques
Mise en oeuvre avec les DataFrames
SPARK GRAPHX
Fourniture d’algorithmes, d’opérateurs simples pour des calculs statistiques sur les graphes
Travaux pratiques : exemples d’opérations sur les graphes
Tel +223 66 39 38 52 / 70 83 81 11/ 52 56 74 13
Heurs de Cours 10H12-14H16-16H18-18H20-20H22
#badalabougou #palais de LA culture amadou Hamapate Ba
TARIF : 1800.000 FCFA