Pourquoi les datacenters tombent-ils en panne?
Les pannes de datacenter surviennent pour différentes raisons, le plus souvent en lien avec l’alimentation électrique. Les problèmes de réseau et les mauvaises configurations de systèmes IT sont également souvent impliqués, selon les données de l’Uptime Institute.
La plupart des organisations ont déjà été victimes de pannes de datacenter, selon le dernier rapport que l’Uptime Institute consacre à la question. Toutefois, si la plupart des sites sont tombés en panne au moins une fois au cours des trois dernières années, seul un incident sur six est identifié comme critique ou grave. Des données que le consortium a compilées en se basant aussi bien sur ses enquêtes que sur des rapports publics d'incidents.
L’Uptime Institute se concentre notamment sur les causes des pannes touchant les centres de données. Il s’avère que celles-ci sont de sources multiples et le plus souvent en lien avec des problèmes de connectivité réseau. Elles sont aussi fréquemment causées par des dysfonctionnements au niveau de l’alimentation électrique ou de l’IT (hardware et software), de même que par des problèmes touchant les fournisseurs IT tiers. A noter que le panel des enquêtes de l’Uptime Institute sont des responsables des opérations en lien avec les datacenters et n’ont pas nécessairement une vue d'ensemble des incidents causés par d’autres pans de l’IT de leur entreprise.
Services tiers
Les pannes liées aux services tiers sont le plus souvent dues à des erreurs logiciels ou de configuration, ainsi qu’à des problèmes de connectivité réseau. Certaines préoccupations exprimées par les entreprises concernent en particulier les fournisseurs cloud, entre autres de services IaaS ou de composants sous-jacents, en raison des risques inhérents à la dépendance excessive envers un seul (ou une poignée) de hyperscalers.
Défaillances du réseau
Les défaillances dans la gestion des configurations sont aussi impliquées dans les pannes de réseau informatiques touchant les datacenters. Egalement concernés ici: les dysfonctionnements au niveau des fournisseurs de réseaux tiers. Les systèmes actuels en mode software-defined et les outils de gestion du réseau étant régulièrement mis à jour, les défaillances sont inévitables, jugent les auteurs du rapport.
Pannes d'électricité
L'une des récentes enquêtes de l'Uptime Institute montre que moins d'un tiers des opérateurs ont déclaré avoir subi une panne majeure en lien avec une coupure de courant au cours des trois dernières années. Reste que leur survenue engendre un processus de rétablissement parfois long et coûteux. Leur origine peut être diverse et venir d’une panne d’ondulateur, de commutateur ou de générateur.
Problèmes hardware ou logiciel
La complexité et la taille des systèmes IT actuels, ainsi que le rôle croissant que joue les logiciels contribuent aux pannes de datacenters. Les services qui fonctionnent dans plusieurs zones de disponibilité ou différents centres de données peuvent subir des pannes partielles ou totales en raison de problèmes d'équilibrage de la charge, de gestion du trafic et de synchronisation des bases de données. Les causes les plus courantes des problèmes de systèmes IT sont les modifications de configuration et les mises à jour et autres correctifs. Bien que moins fréquentes, les cyberattaques sont aussi parfois à l'origine des interruptions de datacenters.
Les auteurs notent que la redondance et les architectures distribuées propres au cloud, par leur multiplicité, augmentent la fréquence des pannes. Toutefois, ces dernières sont davantage locales et leur impact est ainsi atténué. En outre, les défaillances de réseau mettent à rude épreuve les systèmes d'alimentation et les procédures de gestion. Enfin, les analystes de l'Uptime Institute notent que la résilience des centres de données dépend fortement de la disponibilité d'employés compétents.