FORMATION BIG DATA AVEC SPARK

#FORMATION BIG DATA

MISE EN ŒUVRE DE TRAITEMENTS AVEC SPARK

METTRE EN ŒUVRE SPARK POUR OPTIMISER DES CALCULS

FORMATION BIG DATA – MISE EN ŒUVRE DE TRAITEMENTS AVEC SPARK

METTRE EN ŒUVRE SPARK POUR OPTIMISER DES CALCULS

INTRODUCTION

Présentation de Spark

Origine du projet

Apports et principes de fonctionnement

Langages supportés

Mise en oeuvre sur une architecture distribuée

Architecture : clusterManager, driver, worker, …

PREMIERS PAS

Utilisation du Shell Spark avec Scala ou Python

Modes de fonctionnement

Interprété, compilé

Utilisation des outils de construction

Gestion des versions de bibliothèques

Mise en pratique en Java, Scala et Python

Notion de contexte Spark

Extension aux sessions Spark

RÈGLES DE DÉVELOPPEMENT

Mise en pratique en Java, Scala et Python

Notion de contexte Spark

Différentes méthodes de création des RDD : depuis un fichier texte, un stockage externe

Manipulations sur les RDD (Resilient Distributed Dataset)

Fonctions, gestion de la persistance

CLUSTER

Différents cluster managers : Spark interne, avec Mesos, avec Yarn, avec Amazon EC2

Architecture : SparkContext, SparkSession, Cluster Manager, Executor sur chaque noeud

Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job

Mise en oeuvre avec Spark et Amazon EC2

Soumission de jobs, supervision depuis l’interface web

TRAITEMENTS

Lecture/écriture de données : texte, JSon, Parquet, HDFS, fichiers séquentiels

Jointures

Filtrage de données, enrichissement

Calculs distribués de base

Introduction aux traitements de données avec map/reduce

SUPPORT CASSANDRA

Description rapide de l’architecture Cassandra

Mise en oeuvre depuis Spark

Exécution de travaux Spark s’appuyant sur une grappe Cassandra

DATAFRAMES

Spark et SQL

Objectifs : traitement de données structurées

L’API Dataset et DataFrames

Optimisation des requêtes

Mise en oeuvre des Dataframes et DataSet

Comptabilité Hive

Travaux pratiques : extraction, modification de données dans une base distribuée

Collections de données distribuées

Exemples

STREAMING

Objectifs , principe de fonctionnement : stream processing

Source de données : HDFS, Flume, Kafka, …

Notion de Streaming

Contexte, DStreams, démonstrations

Travaux pratiques : traitement de flux DStreams en Scala

Watermarking

Gestion des micro-batches

Travaux pratiques : mise en oeuvre d’une chaîne de gestion de données en flux tendu (IoT, Kafka, SparkStreaming, Spark)

Analyse des données au fil de l’eau

INTÉGRATION HADOOP

Rappels sur l’écosystème Hadoop de base : HDFS/Yarn

Création et exploitation d’un cluster Spark/YARN

Intégration de données sqoop, kafka, flume vers une architecture Hadoop et traitements par Spark

Intégration de données AWS S3

MACHINE LEARNING

Fonctionnalités : Machine Learning avec Spark, algorithmes standards, gestion de la persistance, statistiques

Mise en oeuvre avec les DataFrames

SPARK GRAPHX

Fourniture d’algorithmes, d’opérateurs simples pour des calculs statistiques sur les graphes

Travaux pratiques : exemples d’opérations sur les graphes

Tel +223 66 39 38 52 / 70 83 81 11/ 52 56 74 13

Heurs de Cours 10H12-14H16-16H18-18H20-20H22

#badalabougou #palais de LA culture amadou Hamapate Ba

TARIF : 1800.000 FCFA

Laisser un commentaire