FORMATION DATA ENGINEER

#FORMATION DATA ENGINEER

  • Maîtriser les fondamentaux de Linux et des scripts bash
  • Connaître les fondamentaux du langage Python
  • Utiliser les bases de données relationnelles et NoSQL
  • Mettre en place l’automatisation et le déploiement d’application
  • Utiliser les technologies autour de la data science (statistiques, machine learning, …)
  • Appréhender les systèmes de gestion de versions comme Git ou GitHub
  • Tel +223 66 39 38 52 / 70 83 81 11/ 52 56 74 13
  • Heurs de Cours 10H12-14H16-16H18-18H20-20H22
  • #badalabougou #palais de LA culture amadou Hamapate Ba

Programme de la formation

Systèmes Linux & Python

  • Présentation des systèmes Linux.
  • Prise en main et utilisation d’un terminal.
  • Mise en place de scripts bash.
  • Maîtrise des variables et des types.
  • Présentation des divers opérateurs et de leurs applications.
  • Introduction au concept de boucles et aux structures de contrôle.
  • Définition d’une fonction dans Python et de leurs applications.
  • Initiation aux classes et modules.
  • Préparation de la mise en place, du paramétrage et de l’enchainement de décorateurs.
  • Différenciation et implémentation du multithreading et du multiprocessing sur Python.
  • Application d’une fonction asynchrone dans Python.
  • Introduction aux annotations et utilisation de la bibliothèque mypy.

SQL et MongoDB

  • Introduction aux bases de données relationnelles.
  • Présentation de SQLAlchemy et applications.
  • Initiation aux bases du langage SQL.
  • Approfondissement de SQL et de ses applications.
  • Introduction aux bases de données NoSQL (base de données orientée document, colonne, graphe).
  • Présentation de MongoDB.
  • Familiarisation avec la syntaxe des requêtes MongoDB.

Elasticsearch et Neo4j

  • Description d’un moteur de recherche.
  • Présentation d’un index et mode d’emploi.
  • Mise au point d’un mapping.
  • Découverte des différentes opérations.
  • Prétraitement des données avec ingest node.
  • Extraction des données avec les text analyzers.
  • Introduction aux bases de données orientées graphe.
  • Mise en place d’un premier graphe.
  • Initiation au langage de requête Cypher.
  • Chargement de données dans Neo4J.
  • Utilisation d’un client Python pour Neo4J.

Statistiques et machine learning

  • Exploration des variables numériques.
  • Exploration des variables catégorielles.
  • Étude des relations entre les variables.
  • Prétraitement de données.
  • Sélection et optimisation d’un algorithme de machine learning.
  • Définition et application d’un algorithme de régression.
  • Définition et application d’un algorithme de classification
  • Développement d’algorithmes de clustering.
  • Introduction au PCA (Principal Component Analysis, analyse en composantes principales).

Dataviz avec Matplotlib

  • Découverte de graphes : en barres (barplot), nuages de points (scatter plot), histogrammes, camemberts (pie chart), …

Hadoop/Hive et HBase/Spark

  • Fonctionnement de Hadoop.
  • Installation et configuration de Hadoop.
  • Traitement et stockage des données avec HDFS.
  • Présentation de MapReduce.
  • Utilisation de Hadoop streaming pour exécuter un fichier MapReduce.
  • Mise en place d’entrepôts de données.
  • Présentation du fonctionnement de Hive.
  • Présentation des bases de données orientées colonne.
  • Association de Hadoop (HDFS) et de HBase. Requêtes de données.
  • Modification des données par Python et HBase.
  • Distinction entre Spark et Hadoop.
  • Introduction au calcul distribué avec Spark.
  • Présentation des API, RDD (resilient distributed dataset) et dataframes de Spark.
  • Pipeline de processing de données distribuées avec PySpark.
  • Machine learning distribué avec Spark MLlib.

Git, GitHub et quality assurance

  • Présentation des avantages des tests : gain de temps, lisibilité, qualité et amélioration de code.
  • Introduction au système de gestion de versions Git.
  • Initialisation d’un dépôt Git.
  • Présentation et approfondissement des concepts Git : branches, tag, merge.
  • Découverte de la plateforme GitHub pour le travail collaboratif sur Git.
  • Présentation des fonctionnalités majeures de GitHub : fork, pull, request, issues.
  • Partager ses modifications avec pull et push.
  • Participation à l’amélioration de projets publics (open source).
  • Présentation des principaux workflows Git.
  • Mise en place de tests unitaires avec Pytest.
  • Introduction aux tests d’intégration et leurs fonctions.

Architecture de Streaming Kafka et Spark Streaming

  • Gestion de flux de données en temps réel.
  • Conception d’une architecture big data hybride (batch et temps réel).
  • Mise en place d’une architecture lambda.
  • Présentation de la plateforme de streaming distribuée Kafka : architecture, avantages.
  • Gestion des paramétrages de producers : clef de partitionnement.
  • Maîtrise des paramètres de consumers : consumer group.
  • Prise en main de Spark Streaming pour le traitement de données en temps réel.
  • Présentation du MiniBatch streaming nécessaire pour le fonctionnement de Spark Streaming.

API

  • Introduction aux API et découverte des architectures microservices.
  • Présentation des différentes méthodes HTTP et de leurs fonctions.
  • Utilisation des librairies FastAPI et flask pour développer des API RESTful.
  • Documentation d’une API avec la spécification OpenAPI.
  • Gestion des erreurs et des performances d’une API.
  • Découverte d’Airflow : orchestration, graphe orienté acycliques ou DAG (directed acyclic graphs) et opérateurs.
  • Gestion de tâches par le biais d’opérateurs spécifiques.
  • Monitoring des DAG (directed acyclic graphs) via l’interface graphique d’Airflow.

Docker et Kubernetes

  • Présentation de la conteneurisation et de son utilité par rapport à la virtualisation.
  • Initiation au fonctionnement de Docker.
  • Manipulation des images et des conteneurs.
  • Communication avec les conteneurs.
  • Persistance des données grâce aux volumes.
  • Création d’une image Docker via un Dockerfile.
  • Partage des images sur le Docker Hub.
  • Utilisation de Docker Compose.
  • Déploiement et gestion des conteneurs.

TARIF : 2950 000 FCFA

  • Tel +223 66 39 38 52 / 70 83 81 11/ 52 56 74 13
  • Heurs de Cours 10H12-14H16-16H18-18H20-20H22
  • #badalabougou #palais de LA culture amadou Hamapate Ba

Laisser un commentaire