Quand on parle de stack d’observabilité moderne, trois noms reviennent systématiquement : OpenTelemetry, VictoriaMetrics, Grafana. Voici pourquoi cette combinaison constitue aujourd’hui une alternative crédible (et souvent meilleure) aux plateformes SaaS « tout-en-un ».
OpenTelemetry : le standard fédérateur
OpenTelemetry (OTel) est le standard open-source de la CNCF pour la collecte, le traitement et l’export des données de télémétrie. Supporté par la quasi-totalité des éditeurs, il garantit une portabilité totale : en instrumentant votre code avec OTel, vous pouvez changer de backend sans modifier le code.
L’OpenTelemetry Collector est l’incarnation la plus aboutie de l’agent unifié. Son architecture en pipeline (receivers → processors → exporters) collecte simultanément métriques, logs et traces, les transforme et les route vers un ou plusieurs backends, dans un seul binaire.
L’avantage majeur : la fin de la prolifération d’agents
| Avant : paysage hétérogène | Après : architecture clarifiée |
|---|---|
| Supervision agentless (PRTG via SNMP/WMI) Agent Zabbix Agent Centreon (legacy) Exporteur Prometheus Agent Filebeat (logs) Agent Fluentd (logs) Agent Jaeger (traces) → Jusqu’à 6-7 composants/machine | Supervision agentless (inchangée) Centreon CMA (basé OTLP) OpenTelemetry Collector (métriques + logs + traces) → 2 à 3 composants, périmètres clairs |
VictoriaMetrics : la TSDB nouvelle génération
VictoriaMetrics est une base de séries temporelles open-source (Apache 2.0), conçue pour des performances élevées et une efficacité en coût remarquable. Son écosystème couvre les trois piliers :
| Composant | Rôle | Points forts |
|---|---|---|
| VictoriaMetrics | Métriques | Compression 7x+, MetricsQL, support OTLP natif |
| VictoriaLogs | Logs | Multi-sources (Filebeat, OTel, Syslog), LogsQL, intégration Grafana |
| VictoriaTraces | Traces | OTLP HTTP/gRPC, visualisation Grafana |
| VM Anomaly Detection | Détection anomalies | IA sur séries temporelles pour alerting proactif |
| vmagent | Collecte | Agent léger, plus performant que Prometheus Agent |
Résultats documentés en production : Grammarly a divisé ses coûts par 10 en migrant depuis sa stack précédente. Spotify rapporte des performances Grafana significativement améliorées. Zomato gère 2,2 milliards de séries actives. Le CERN utilise VictoriaMetrics pour le monitoring temps réel du détecteur CMS.
Grafana : la visualisation unifiée
Grafana fédère les données des deux pôles dans une interface unique. Ses datasources connectent VictoriaMetrics, VictoriaLogs, VictoriaTraces, mais aussi PRTG ou d’autres outils de supervision via des plugins dédiés.
Pour les équipes, c’est un changement de paradigme : plus besoin de jongler entre 5 outils pour comprendre un incident. Tout est centralisé, corrélé, accessible.
De la normalisation à la corrélation : la vraie promesse
La normalisation via OpenTelemetry n’est qu’une première étape. La vraie promesse se réalise quand un opérateur peut, depuis une alerte sur une métrique, naviguer vers les logs correspondants puis remonter la trace, sans quitter son interface.
- Une métrique anormale reliée automatiquement aux logs du même service
- Un log d’erreur rattaché à la trace via un identifiant de corrélation (trace ID)
- Une trace enrichie des métriques du service concerné au moment de l’exécution
Sans ces capacités, les trois piliers restent trois silos. Le choix du backend doit absolument intégrer ce critère.
Comparaison des approches
| Critère | SaaS (Datadog…) | Grafana Stack | VM Stack |
|---|---|---|---|
| Modèle | Cloud propriétaire | Open-source assemblé | Open-source unifié |
| Coût | Élevé et variable | Infra uniquement | Infra, très optimisé |
| Complexité ops | Faible (managé) | Élevée (4+ composants) | Modérée |
| Souveraineté | Non (cloud tiers) | Oui | Oui |
| Vendor lock-in | Fort | Faible | Faible |
| Performance | Bonne | Variable | Excellente |
Notre conclusion : la stack VictoriaMetrics + OpenTelemetry + Grafana offre aujourd’hui le meilleur compromis pour les organisations qui cherchent une observabilité performante, économique et sous contrôle.
Dans le prochain article, nous détaillerons la feuille de route pour construire cette stack étape par étape.
Cet article est tiré de notre livre blanc « De la supervision à l’observabilité » (PDF, 2026).