2025-05-26·2 min de lecture

Construire une Stack de Monitoring avec Grafana, Loki et Prometheus (Partie I)

Le focus initial porte sur la supervision des sauvegardes

Monitoring

Introduction

Dans le cadre de mon parcours d'apprentissage en cybersécurité et en administration systèmes, j'ai commencé à construire une stack de monitoring moderne et scalable. Ce projet me permet d'explorer des outils open source puissants comme Grafana, Loki et Prometheus, tout en renforçant mes compétences en administration système, visualisation de données et conception d'infrastructure.

L'objectif initial est de superviser les processus de sauvegarde (Veeam), avec l'idée d'étendre ensuite la stack à d'autres systèmes critiques comme Active Directory.

Objectifs du projet

Centraliser les logs pour accéder rapidement aux événements critiques.
Surveiller les métriques système et applicatives pour anticiper les pannes.
Fournir une base technique solide et compréhensible pour d'autres techniciens ou étudiants.

Fonctionnalités clés

Journalisation centralisée avec Loki : Architecture distribuée avec nœuds lecture/écriture séparés, stockage MinIO et collecte des logs via Promtail et un script PowerShell personnalisé.
Collecte de métriques avec Prometheus : Scraping de données exposées par un fichier .prom personnalisé, donnant de la visibilité sur l'état des sauvegardes (succès/échec, temps écoulé, fréquence).
Dashboard Grafana personnalisé : Construit from scratch pour visualiser l'état des sauvegardes en temps réel.
Load Balancer NGINX : Reverse proxy configuré pour router les requêtes vers les nœuds appropriés selon leur rôle (lecture ou écriture).
Authentification et sécurité : Tous les points d'entrée sont sécurisés pour garantir la confidentialité des données.

Outils et technologies

Grafana pour les dashboards et la visualisation
Loki pour la gestion des logs
Prometheus pour la collecte de métriques
NGINX pour le reverse proxy et le load balancing
MinIO (local) comme stockage compatible S3 pour les logs
Proxmox comme hyperviseur pour héberger les machines virtuelles
Docker / VirtualBox utilisés pendant la phase de prototypage (stack ELK testée puis écartée à cause des contraintes de ressources)

Défis et apprentissages

Compréhension approfondie du rôle critique du compactor Loki dans un setup distribué
Difficultés de configuration avec NGINX, notamment sur les WebSockets et le bon routage des requêtes
Évolution de ma réflexion d'architecture pour planifier la scalabilité et l'optimisation des ressources
Acquisition d'une expérience concrète en haute disponibilité, sécurité réseau et conception modulaire des systèmes

Résultats actuels

Même si le projet est encore en cours, la stack actuelle permet déjà une supervision efficace des sauvegardes. La prochaine étape consiste à mettre en place des alertes email en cas d'échec de sauvegarde.

Cette architecture constitue une base solide pour les futurs cas d'usage et pour continuer à progresser techniquement.

Prochaines étapes

Intégrer Active Directory comme nouvelle source d'événements à superviser
Implémenter des alertes email pour les incidents critiques
Étendre la couverture aux machines virtuelles et à d'autres services clés
Explorer des composants supplémentaires comme Tempo ou Alertmanager pour aller vers une plateforme de monitoring complète

Ce projet me permet d'appliquer mes connaissances théoriques tout en construisant une solution de monitoring concrète, scalable et sécurisée. C'est une première étape solide vers la maîtrise des systèmes de supervision modernes.