Mutualisé : OVH s’explique sur la panne de 50 000 sites et annonce un geste commercial
MARCEL, ça goutte !
Le 07 juillet 2017 à 15h50
7 min
Internet
Internet
50 000 sites mutualisés hors service pendant une journée. C'est le cauchemar vécu par OVH en fin de semaine dernière. Dans un long billet de blog, l'hébergeur revient sur cet incident et répond aux interrogations que nous avions soulevées. OVH annonce dans le même temps un geste commercial pour les clients impactés.
La semaine dernière, OVH a subi une importante panne sur son offre d'hébergement mutualisé. Nous avions alors détaillé le déroulement des opérations et expliqué que l'hébergeur faisait part d'une certaine transparence... mais pas trop non plus sur certains points. Nous pointions notamment du doigt la mention d'une fuite d'eau ayant disparu d'un ticket d'incident.
Communication floue sur la fuite d'eau : OVH s'excuse et s'explique
Dans un long billet de blog, l'hébergeur retrace le déroulement des opérations, quasiment heure par heure, et fait un « mea culpa » sur sa communication. Il revient également en détail sur les causes et les conséquences de cette panne qui a impacté 50 000 sites sur les 3 millions hébergés.
Pour commencer, oui, c'est bien une fuite d'eau qui est en cause : « À 18h48, le jeudi 29 juin, dans la salle 3 du datacenter P19, en raison d’une fissure sur un tuyau en plastique souple de notre système de watercooling, une fuite de liquide de refroidissement entraîne la présence de fluide dans l’une des deux baies de stockage propriétaires ». La baie s'est donc arrêtée.
Si l'indication d'une fuite d'eau a disparu du ticket d'incident, c'est à cause de deux éléments affirme la société : « il est difficile de communiquer sur les sujets entourant le watercooling sans prendre le risque de révéler, indirectement, des secrets industriels qui pourraient intéresser nos concurrents ».
De plus, « dans l’imaginaire collectif, le liquide et les serveurs, c’est une alliance plutôt contre-nature. D’où nos précautions, maladroites il faut le reconnaître, sur le sujet ». OVH aurait-il fait toute la lumière sur cette histoire de fuite si le ticket initial ne la mentionnait pas ?
OVH se veut rassurant sur le watercooling, qui équipe une bonne partie de ses datacenters
Rappelons tout de même qu'OVH utilise des systèmes maison de watercooling depuis maintenant 14 ans (voir notre visite du datacenter 4 de Roubaix en 2011), la société ne s'en cache d'ailleurs pas. Et cela ne semble pas poser de problème particulier, hormis celui de la semaine dernière bien évidemment.
« C’est un système qui comporte peu de risques, en comparaison avec une panne de climatisation occasionnant la surchauffe d’une salle et inéluctablement l’arrêt des équipements informatiques » indique d'ailleurs l'hébergeur sur son blog. Il rappelle au passage un incident de 2014 que nous avions également évoqué : de la condensation sur un module de climatisation avait entrainé une panne de deux switchs dans deux baies différentes. Bref, aucun système n'est parfait...
Dans le cas d'OVH, de nombreuses sondes sont installées afin de détecter la présence de liquide dans une baie. En cas d'urgence, ce qui était le cas jeudi dernier, le système MARCEL (Monitoring Audio des Réseaux Composants Équipements et Locaux) s'enclenche : il « permet de diffuser un message audio dans nos datacenters grâce à une voix de synthèse et à des haut-parleurs disposés dans chaque salle » explique la société.
Aphone, MARCEL retarde l'intervention du technicien
Manque de chance, « dans le cadre de l’implantation à l’international de nouveaux datacenters, ce système de monitoring audio était en cours de mise à jour, afin que la voix de synthèse puisse diffuser les messages d’alerte dans plusieurs langues ». Or, un problème dans cette procédure, réalisée le jour même, a empêché cette alerte de fonctionner.
Conséquence, au lieu d'intervenir immédiatement, le technicien est arrivé dans la salle onze minutes après la détection de la fuite. Bref, un enchevêtrement de « petites » causes qui ont conduit à une panne d'envergure, privant de bases de données 50 000 sites web, excusez du peu.
EMC n'a pas fait pression sur OVH, sa technologie hors de cause
Autre zone d'ombre que nous avions relevée, et auquel répond OVH dans son billet de blog : la question des baies de stockage d'EMC. Le ticket initial avait été mis à jour par Octave Klaba afin d'ajouter un paragraphe pour blanchir son partenaire et expliquer que « la technologie d'EMC n'est pas à l'origine de l'incident ».
Dans son message initial, le directeur général d'OVH laissait « involontairement penser que la baie présente un défaut dont le constructeur pourrait être tenu responsable. Constatant l’interprétation faite de son message, il se ravise et modifie la tâche travaux pour mettre hors de cause le constructeur ». Le problème étant qu'aucun indicateur ne permet de savoir qu'une mise à jour a été faite ou non, ni la nature des modifications apportées.
Sur son blog, OVH ajoute que le fait de disculper EMC ne fait suite à aucune demande ou pression de la part de son partenaire. Pour rappel, EMC nous avait fait une déclaration similaire lundi matin.
Bientôt une équipe dédiée à la communication en cas de crise
OVH prend note de ces problématiques liées à la communication et annonce qu'il mettra en place une équipe spécialisée pour « délivrer aux utilisateurs une information dont la qualité est adaptée à ce type de situation ». Elle doit non seulement être transparente, mais aussi cohérente affirme l'hébergeur. Espérons que la cohérence ne vienne pas empiéter sur la transparence.
Dans tous les cas, on ne peut pas reprocher à OVH d'avoir voulu étouffer l'incident, les tickets d'incidents étant régulièrement mis à jour par ses équipes sur l'avancement de l'enquête et des procédures mises en place. Par contre, on regrette qu'il n'ait pas souhaité nous préciser pourquoi les billets avaient été mis à jour lorsque nous l'avions contacté lundi matin.
Deux mois offerts pour les clients, les données de la baie EMC irrécupérables
Concernant les données sur la baie de stockage EMC qui ne voulait plus démarrer, OVH a une mauvaise nouvelle (comme on pouvait s'y attendre) : « nous constatons qu’il n’est pas possible de la remettre en fonctionnement, ceci malgré toutes les actions entreprises avec les équipes support constructeur ».
La sauvegarde remise en circulation reste donc en place, ce qui entraine une perte de données sur une période allant de 1 h à 22 h avant l'incident. La société en profite pour donner quelques précisions : il s’agissait « d’une sauvegarde d’infrastructure globale », réalisée dans le cadre d'un plan de reprise d’activité et non des snapshots des bases de données accessibles aux clients. « Restaurer les données ne signifie pas seulement migrer les données de backup depuis un stockage à froid vers un espace libre de la plateforme technique de l’hébergement mutualisé. Il s’agit de recréer l’ensemble de l’environnement de production ».
Petite consolation pour les clients touchés, OVH va mettre en place un geste commercial : « prolonger gracieusement l’offre d’hébergement web des utilisateurs concernés de deux mois ». Les modalités seront dévoilées dans les prochains jours.
Enfin, il est question d'une refonte des offres d’hébergement web : « nous envisageons ainsi d’apporter, à ceux qui en ont l’utilité, des garanties supplémentaires aux clients, justifiant par exemple l’existence d’un SLA contractuel ». Tous les détails seront communiqués ultérieurement.
Mutualisé : OVH s’explique sur la panne de 50 000 sites et annonce un geste commercial
-
Communication floue sur la fuite d'eau : OVH s'excuse et s'explique
-
OVH se veut rassurant sur le watercooling, qui équipe une bonne partie de ses datacenters
-
Aphone, MARCEL retarde l'intervention du technicien
-
EMC n'a pas fait pression sur OVH, sa technologie hors de cause
-
Bientôt une équipe dédiée à la communication en cas de crise
-
Deux mois offerts pour les clients, les données de la baie EMC irrécupérables
Commentaires (33)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 08/07/2017 à 10h37
Ils essayent pas aussi de foutre en place le prélèvement mensuel sur leur merde ?
J’utilise un kimsufi que je paye à la CB où je peux prendre plusieurs mois si je veux et pour résilier, j’arrête simplement de payer, mais ce mois-ci j’ai pour la 1ere fois eu une espèce de facture dù pour ce serveur, que j’ai payé en CB comme je le fais depuis toujours, mais je n’arrive plus à prendre des mois “d’avances” comme avant :/.
Le 08/07/2017 à 10h58
Quels guignols… c’est incident sur incident… quand on voit leur datacenter c’est effarant. D’autres prestataires sont bien plus sérieux, notamment en France.
Le 08/07/2017 à 12h37
moins de 24 heures de coupure en 10 ans pour certaines machines pour des trucs à quelques Euros/mois, et c’est horrible, vraiment? J’ai l’impression que les gens demandent tout à pas cher…
Quand au “VPS ailleurs”, il est super jusqu’à la panne suivante (qui n’arrive pas qu’aux autres), et la on aura le droit au même discours “bouh horrible je vais ailleurs).
Rappel : Même Google ou Twitter et j’en passe ont connu des (énormes) pannes.
En attendant, même avec cet incident, OVH reste un très bon rapport qualité/prix n’en déplaise aux grincheux.
Note : si on veut une meilleure QoS, prendre un unique VPS ailleurs ne suffit pas, toujours dépendant d’une panne (matérielle ou humaine), il faut prendre 2 VPS chez 2 hébergeurs différents, et travailler pour que ses services gèrent bien la redondance. Allez au travail.
Le 08/07/2017 à 13h41
Au moins ils communiquent sur leurs pannes, pas comme 1&1…
Le 08/07/2017 à 15h32
Juste +1.
La qualité de service est toujours proportionnelle à la hauteur des moyens mis dedans.
Et même sur du “local” (datacenter interne à l’entreprise) on a ce genre d’excès. Du style le service refuse de payer pour avoir de la haute dispo et chiale pour la moindre coupure (panne/maintenance..). Alors que contractuellement, ils ont dit tolérer 4 jours d’interruption pour ne pas avoir à payer plus cher… " />
Le 08/07/2017 à 15h49
Le 09/07/2017 à 17h04
Grincheux toi même ^^
A la base mon propos c’est “Ce que je reproche c’est une communication défaillante ou en tout cas peu réactive”Et j’ai pris un autre service pour remplacer un des 2 VPS que j’ai actuellement chez OVH.Capito ?
Le 09/07/2017 à 22h31
Je trouve que certains ont un niveau d’exigence hors norme vis-à-vis d’OVH.
J’ai pas d’actions chez eux, mais:
Aucun société ne peut te garantir qu’une panne similaire ne leur arrivera pas et qu’ils seront plus réactifs en cas de panne.Bref, comme dit dans pas mal de commentaires, si vous voulez un meilleur SLA, prenez-en deux!
Le 10/07/2017 à 07h50
Le 10/07/2017 à 09h39
online
Le 10/07/2017 à 10h06
Les liquides de watercooling ne sont pas sensé ne pas conduire l’éléctricité et etre sans danger pour les composants?
Le 10/07/2017 à 12h24
Comme son nom l’indique, il s’agit d’un refroidissement à l’eau (Water). Et l’eau est bien conductrice.
Le 11/07/2017 à 11h08
A la base oui, mais aujourd’hui il existe des liquides non conducteurs électrique, j’ai meme vu des pc entier en fonctionnement immergés dans des liquides pour les refroidir.
Le 11/07/2017 à 11h36
Dans le cas du pc entier immergé, le liquide se trouve être de l’huile.
Le 11/07/2017 à 20h50
Encore une histoire de plombier polonais avec son marcel, il a du travailler trop vite et a du prendre la fuite en même temps que le liquide de refroidissement…" />
" />
Le 12/07/2017 à 10h17
Je vous l’avais bien dit que c’était un écureuil .
Le 12/07/2017 à 12h33
La visite citée dans l’article précise pourtant que le liquide n’est pas conducteur…
Le 12/07/2017 à 14h46
Le but d’un PRA n’est-il pas de répliquer son installation dans un endroit physiquement éloigné du système en production ?
Ceci dans l’objectif de ne pas subir les désagrément d’une inondation, d’un incendie ou que sais-je ?
Je travaille dans une PME, on ne fait pas de l’hébergement notre métier et nous n’avons pas le même portefeuille qu’OVH pourtant, en cas de sinistre, nous ne perdons que 5 min de travail.
Je trouve ça scandaleux qu’un hébergeur aussi réputé qu’OVH arrive à perdre des données.
Je me mets à la place des commerçants et autres 50 000 victimes, les deux mois gratis je m’en tamponne le coquillard.
Le 07/07/2017 à 16h09
J’ai eu une panne sur un de mes VPS chez eux entre le 4⁄7 18h et le 5⁄7 13h environ. Ça fait long…
Mon service a été prolongé de 3 semaines, après réclamation (j’aurais peut-être obtenu la même chose sans réclamer ceci dit).
Ce que je reproche c’est une communication défaillante ou en tout cas peu réactive : dans la tâche travaux, mon VPS n’était pas mentionné au départ et pendant de longues heures (ce qui met le doute pour rien), et ce n’est qu’une fois avoir ouvert un ticket que la tâche travaux a été mise à jour avec l’identifiant de mon VPS ajouté à la longue liste.
Le support a été “assez” réactif sur mon ticket, pour OVH en tout cas (pas mal d’heures pour répondre), mais globalement ça reste décevant.
Du coup j’ai pris un VPS ailleurs, et j’en laisserai tomber un chez OVH à l’échéance. Plus cher, mais avec une assistance hyper réactive.
Le 07/07/2017 à 16h29
OVH a passé certains serveurs en paiement mensuel à du paiement annuel sans prévenir les propriétaires et du coup si ils ne payaient pas 12 mois d’un seul coup, ils étaient coupés.
ça s’appelle du Racket.
Le 07/07/2017 à 16h37
Bref, un enchevêtrement de « petites » causes qui ont conduit à une panne d’envergure
Me semble bien avoir vu un truc comme ca dans “Destination finale”…
Le 07/07/2017 à 16h40
J’adore cette série de films, une vrai publicité contre les accidents domestiques…
Le 07/07/2017 à 16h51
une fuite de liquide de refroidissement entraîne la présence de fluide dans l’une des deux baies de stockage propriétaires
Fallait utiliser une baie de stockage sous GPL." />
dans le cadre de l’implantation à l’international de nouveaux datacenters, ce système (Marcel) de monitoring audio était en cours de mise à jour
Y a plus qu’a se relever les manches… " />
Il s’agit de recréer l’ensemble de l’environnement de production
Je souhaite un bon WE aux techniciens." />
Le 07/07/2017 à 17h11
Ce n’est pas du racket puisque la somme demandé est due… Cela-dit ce n’est pas très correcte non plus.
Le 07/07/2017 à 17h29
Ya pire " />
Pendant une maintenance de routine dans les années 80 un technicien avait refait le niveau dans la cuve de l’échangeur d’un 3084 IBM à refroidissement par eau.
La cuve étant à environ 2 m de hauteur et il avait rempli avec un bidon qui était stocké à côté.
Sauf que …
Un mec ( un stagiaire sûrement) avait stocké les bidons d’acide des batteries d’UPS dans la salle de refroidissement et avait stocké l’eau déminéralisée dans la salle des batteries… mêmes bidons.
Ben quand il a posé le bidon par terre il s’en est aperçu ! à l’odeur !
trop tard! les pompes marchaient à merveille
en fait ils ont fini par remplacer la bécane en entier ( la taille d’un terrain de tennis " /> )
ça se passait en Allemagne
" />
souvenirs souvenirs
Le 07/07/2017 à 19h05
Le 07/07/2017 à 19h09
Le 07/07/2017 à 20h22
Le 07/07/2017 à 21h51
Ya que moi qui trouve bizarre que le système d’alerte soit coupé ? Pour faire du “multilangue” en france ? 1 seule langue (anglais ou langue locale) sufirait…
Le 07/07/2017 à 22h03
« dans le cadre de l’implantation à l’international de nouveaux datacenters, ce système de monitoring audio était en cours de mise à jour, afin que la voix de synthèse puisse diffuser les messages d’alerte dans plusieurs langues ». ;)
Le 07/07/2017 à 22h12
Oui, oui. J’ai lu. Mais je comprend ceci : MARCEL devait emettre en plusieurs langues. D’ou ma reflexion: pourquoi pas garder une langue unique. Je pars du principe que leurs tech doivent au moins comprendre l’anglais.
Au passage, j’en deduis aussi que le tech qui va sur place est le meme qui est derriere les console a verifier que tout est ok, et donc que si il y a un soucis, et qu’il est dans une salle, il est avertit par haut parleur. J’aurais plutôt imaginé au moins 2 persones, histoire d’avoir toujours quelqu’un devant les consoles, meme si l’autre va pisser/changer un disque/manger
Le 07/07/2017 à 22h18
Langue unique quand tu es un acteur français en France c’est facile, c’est le français
Quand tu es à l’étranger tu dois passer à l’anglais => mise à jour
Tu peux avoir 3 personnes ça ne change rien. Si l’un est en train de faire de la maintenance, que le deuxième va pisser pendant que le troisième mange, tu n’as personne devant l’écran
Le 07/07/2017 à 22h27