![](https://groupealliancemali.wordpress.com/wp-content/uploads/2023/08/1681224867985.jpg?w=800)
#FORMATION DATA ENGINEER
- Maîtriser les fondamentaux de Linux et des scripts bash
- Connaître les fondamentaux du langage Python
- Utiliser les bases de données relationnelles et NoSQL
- Mettre en place l’automatisation et le déploiement d’application
- Utiliser les technologies autour de la data science (statistiques, machine learning, …)
- Appréhender les systèmes de gestion de versions comme Git ou GitHub
- Tel +223 66 39 38 52 / 70 83 81 11/ 52 56 74 13
- Heurs de Cours 10H12-14H16-16H18-18H20-20H22
- #badalabougou #palais de LA culture amadou Hamapate Ba
Programme de la formation
Systèmes Linux & Python
- Présentation des systèmes Linux.
- Prise en main et utilisation d’un terminal.
- Mise en place de scripts bash.
- Maîtrise des variables et des types.
- Présentation des divers opérateurs et de leurs applications.
- Introduction au concept de boucles et aux structures de contrôle.
- Définition d’une fonction dans Python et de leurs applications.
- Initiation aux classes et modules.
- Préparation de la mise en place, du paramétrage et de l’enchainement de décorateurs.
- Différenciation et implémentation du multithreading et du multiprocessing sur Python.
- Application d’une fonction asynchrone dans Python.
- Introduction aux annotations et utilisation de la bibliothèque mypy.
SQL et MongoDB
- Introduction aux bases de données relationnelles.
- Présentation de SQLAlchemy et applications.
- Initiation aux bases du langage SQL.
- Approfondissement de SQL et de ses applications.
- Introduction aux bases de données NoSQL (base de données orientée document, colonne, graphe).
- Présentation de MongoDB.
- Familiarisation avec la syntaxe des requêtes MongoDB.
Elasticsearch et Neo4j
- Description d’un moteur de recherche.
- Présentation d’un index et mode d’emploi.
- Mise au point d’un mapping.
- Découverte des différentes opérations.
- Prétraitement des données avec ingest node.
- Extraction des données avec les text analyzers.
- Introduction aux bases de données orientées graphe.
- Mise en place d’un premier graphe.
- Initiation au langage de requête Cypher.
- Chargement de données dans Neo4J.
- Utilisation d’un client Python pour Neo4J.
Statistiques et machine learning
- Exploration des variables numériques.
- Exploration des variables catégorielles.
- Étude des relations entre les variables.
- Prétraitement de données.
- Sélection et optimisation d’un algorithme de machine learning.
- Définition et application d’un algorithme de régression.
- Définition et application d’un algorithme de classification
- Développement d’algorithmes de clustering.
- Introduction au PCA (Principal Component Analysis, analyse en composantes principales).
Dataviz avec Matplotlib
- Découverte de graphes : en barres (barplot), nuages de points (scatter plot), histogrammes, camemberts (pie chart), …
Hadoop/Hive et HBase/Spark
- Fonctionnement de Hadoop.
- Installation et configuration de Hadoop.
- Traitement et stockage des données avec HDFS.
- Présentation de MapReduce.
- Utilisation de Hadoop streaming pour exécuter un fichier MapReduce.
- Mise en place d’entrepôts de données.
- Présentation du fonctionnement de Hive.
- Présentation des bases de données orientées colonne.
- Association de Hadoop (HDFS) et de HBase. Requêtes de données.
- Modification des données par Python et HBase.
- Distinction entre Spark et Hadoop.
- Introduction au calcul distribué avec Spark.
- Présentation des API, RDD (resilient distributed dataset) et dataframes de Spark.
- Pipeline de processing de données distribuées avec PySpark.
- Machine learning distribué avec Spark MLlib.
Git, GitHub et quality assurance
- Présentation des avantages des tests : gain de temps, lisibilité, qualité et amélioration de code.
- Introduction au système de gestion de versions Git.
- Initialisation d’un dépôt Git.
- Présentation et approfondissement des concepts Git : branches, tag, merge.
- Découverte de la plateforme GitHub pour le travail collaboratif sur Git.
- Présentation des fonctionnalités majeures de GitHub : fork, pull, request, issues.
- Partager ses modifications avec pull et push.
- Participation à l’amélioration de projets publics (open source).
- Présentation des principaux workflows Git.
- Mise en place de tests unitaires avec Pytest.
- Introduction aux tests d’intégration et leurs fonctions.
Architecture de Streaming Kafka et Spark Streaming
- Gestion de flux de données en temps réel.
- Conception d’une architecture big data hybride (batch et temps réel).
- Mise en place d’une architecture lambda.
- Présentation de la plateforme de streaming distribuée Kafka : architecture, avantages.
- Gestion des paramétrages de producers : clef de partitionnement.
- Maîtrise des paramètres de consumers : consumer group.
- Prise en main de Spark Streaming pour le traitement de données en temps réel.
- Présentation du MiniBatch streaming nécessaire pour le fonctionnement de Spark Streaming.
API
- Introduction aux API et découverte des architectures microservices.
- Présentation des différentes méthodes HTTP et de leurs fonctions.
- Utilisation des librairies FastAPI et flask pour développer des API RESTful.
- Documentation d’une API avec la spécification OpenAPI.
- Gestion des erreurs et des performances d’une API.
- Découverte d’Airflow : orchestration, graphe orienté acycliques ou DAG (directed acyclic graphs) et opérateurs.
- Gestion de tâches par le biais d’opérateurs spécifiques.
- Monitoring des DAG (directed acyclic graphs) via l’interface graphique d’Airflow.
Docker et Kubernetes
- Présentation de la conteneurisation et de son utilité par rapport à la virtualisation.
- Initiation au fonctionnement de Docker.
- Manipulation des images et des conteneurs.
- Communication avec les conteneurs.
- Persistance des données grâce aux volumes.
- Création d’une image Docker via un Dockerfile.
- Partage des images sur le Docker Hub.
- Utilisation de Docker Compose.
- Déploiement et gestion des conteneurs.
TARIF : 2950 000 FCFA
- Tel +223 66 39 38 52 / 70 83 81 11/ 52 56 74 13
- Heurs de Cours 10H12-14H16-16H18-18H20-20H22
- #badalabougou #palais de LA culture amadou Hamapate Ba