Une baie de stockage regroupant une partie des bases de données des serveurs mutualisés d'OVH est en panne, entrainant dans son sillage de nombreux sites. L'hébergeur a restauré une sauvegarde, ce qui n'est pas sans conséquence pour certains clients qui ont perdu des données dans l'histoire.
Mercredi, 8h précise, c'était le coup d'envoi des soldes, une période commerciale importante pour de nombreuses boutiques qui peuvent alors écouler leurs stocks et revendre à perte si elles le souhaitent. Un lancement qui a tourné au vinaigre pour certains, à cause d'une panne d'ampleur sur l'offre d'hébergement mutualisé d'OVH.
Mutualisés : le datacenter de Paris victime d'une importante panne sur certaines BDD
Ils sont actuellement plus de trois millions de sites web à utiliser ce service, répartis sur deux datacenters : Paris (P19) et Gravelines (GRA1). Dans la majorité des cas, le Roubaisien affirme utiliser une technologie maison pour le stockage, combinée à des solutions propriétaires dans le cas de P19. Et c'est justement une de ces dernières qui pose problème.
« Le jeudi 29 juin à 18h30, nous avons eu un incident sur l'une de baies de stockage EMC VNX 5400 que nous utilisons pour stocker une partie de bases de données de l'hébergement mutualisé à P19 » explique Octave Klaba, qui a repris son poste de directeur général en mars.
L'ensemble comprend 96 SSD sur plusieurs baies physiques configurées en mode active-active, ce qui signifie que si l'une des deux flanches, la seconde assure la continuité du service. « On a eu le souci sur les deux baies physiques. le cas qui n'arrive jamais » affirme Octave Klaba sur Twitter. C'est « notre faute » ajoute-t-il au passage... mais la situation n'a pas toujours été aussi simple, notamment lors des premières heures de l'incident.
OVH blanchit Dell/EMC, son infrastructure mise en cause
Dans la première version de ce ticket d'incident technique, il était simplement précisé que « l'ensemble ne veut plus redémarrer » et que le fabricant, EMC, avait été contacté afin de tenter de trouver une solution. Depuis, un paragraphe a été ajouté et il précise que « la technologie d'EMC n'est pas à l'origine de l'incident ».
Le directeur général déclare que les datacentres d'OVH « ne sont pas adaptés pour héberger ce type d'infrastructure. Seules certaines salles sont spécialement préparées pour ce genre d'hébergement, mais cette baie de stockage n'y a pas été hébergée ce qui est l'origine du problème ». Nous n'aurons par contre pas plus de précisions sur les salles utilisées, ni sur les causes de l'incident. Contacté, OVH n'a pour le moment pas souhaité nous apporter de détails supplémentaires.
De son côté, Dell/EMC nous indique que cet ajout mettant hors de cause sa baie VNX 5400, « c'est OVH qui l'a fait de son propre chef ». La société nous affirme aussi avoir découvert « le démenti » ce week-end lors de la mise à jour du ticket d'incident par l'hébergeur roubaisien.
Une fuite d'eau pourrait être l'origine de la panne
Par contre, OVH ne s'étend pas vraiment sur les causes de cette défaillance. Octave Klaba explique simplement qu'il s'agit d'une « panne sur des composants de stockage nécessaires au bon fonctionnement du système ». Si l'on en croit certains (ici et là par exemple), l'hébergeur aurait été victime d'une fuite d'eau, mais cette mention aurait disparu de cet autre ticket d'incident.
Si c'est le cas, rappelons que ce ne serait pas la première fois qu'un problème du genre arrive. En septembre 2014, Octave Klaba donnait des détails sur un incident à Strasbourg : « Un module de climatisation dans la salle 5.1 est tombé en panne. Suite à cette panne, il a produit un peu d'eau qui a goutté sur deux baies. Le switch p19-63 et p19-64 sont hébergés dans deux baies différentes, mais sous ce même module de la clim. D'où la panne malgré les redondances mises en place ».
Restauration d'une sauvegarde, avec un décalage temporel et...
Dans tous les cas, OVH a mis en place deux actions distinctes le jeudi 29 juin au soir : essayer de redémarrer la baie de stockage afin de récupérer les données, restaurer une sauvegarde. Une opération fastidieuse et longue puisqu'elle s'est terminée le 30 juin à 23h44. Au total, 97 serveurs de base de données ont été remis sur pied, chacun pouvant être exploité par de nombreux sites web.
Problème, les sauvegardes des bases de données n'ont lieu qu'une fois par jour, sur d'autres systèmes de stockage dans un datacenter à Roubaix. Fatalement, cela entraine une différence entre les données qui ont été perdues et celles remises en place. OVH annonce une différence oscillant entre « minimum 1h et maximum 22h ». Un délai à la fois court et long, surtout en période de soldes pour certains.
Pour le moment, nous ne savons toujours pas si les données de la baie EMC ont pu être récupérées, la dernière mise à jour du ticket des travaux indiquant seulement que les équipes restent mobilisées et qu'elles tiendront informé « de l'état d'avancement de la restauration des données de la baie de stockage ».
Sur Twitter, le compte officiel du support n'était pas en mesure de donner plus de précisions aux clients, qui demandaient notamment s'il y avait un risque d'écrasement si les données de la baie EMC parvenaient à être récupérées :
Navré mais je n'ai pas encore de confirmation à t'apporter. Désolé. ^GuiF
— OVH Support FR (@ovh_support_fr) 3 juillet 2017
... une possible incohérence dans le nom des BDD
Une mauvaise nouvelle n'arrivant jamais seule, la restauration de la base de données entraine pour certains un changement dans la configuration. En effet, les mutualisés d'OVH sont passés de MySQL 5.1 à 5.5 il y a « quelques mois » et le nom des bases de données a évolué de « mysql51-* » vers « mysql55-* ». Une liste de correspondance entre les 5.1 et les 5.5 est disponible par ici. OVH recommande la solution suivante en cas de problème :
Si vous utilisez un serveur dans votre fichier de configuration nommé "sql**-**.**", vous devez le remplacer par le host "classique" à savoir NomDeLaBase.mysql.db. Le nom de host adéquat est disponible dans votre espace client rubrique "Hébergements" onglet "Base de données" puis colonne "Adresse du serveur".
De la transparence, mais pas trop
OVH fait amende honorable et essaie de jouer la carte de la transparence... bien que cela soulève des questions quant aux changements apportés discrètement sur les différents tickets d'incidents. Une transparence qui se limite d'ailleurs à la communication d'Octave Klaba puisque l'hébergeur n'a pas souhaité répondre à nos questions.
Le directeur général affirme que la « dernière panne de cette ampleur date de 2006 » et elle avait conduit à une remise en question des technologies de stockage utilisées à l'époque. Il ajoute qu'il en tirera les conclusions qui s'imposent et qu'il mettra en place des changements pour éviter que cela ne se reproduise. Lesquels ? Ce n'est pas précisé...
Commentaires (83)
@ titre : comme d’hab chez ovh.
Une fuite d’eau pourrait être l’origine de la panne
Ca change de la fuite de données.
Super un de mes sites était planté depuis dimanche à 2h du matin… obligé de changer mon code en catastrophe pour modifier le nom du serveur mysql…
Il auraient quand même pu envoyer un mail au clients impactés !
Ils pourraient quand même assurer une meilleure sauvegarde… Genre une réplication horaire ou ce genre de trucs. (oui je sais, ce n’est pas gratuit, mais combien a couté cet incident?)
Tant que le traitement de l’information est fluide…
Du coup merci nextinpact d’avoir fait le boulot du service client OVH :p
Parce que tu as appris le smodifs techniques à faire dans cette news ? oO
En effet, cest craignos de la part d’OVH de ne peut pas communiquer à grande échelle
Juste appris pourquoi il avait du faire des modifs ^^
Sauvegarde des BDD critiques seulement toutes les 24h, et serveurs redondants dans la même baie ? Ça fait un peu amateur tout ça.
Soyons précis, pas la même baie, mais la même fuite d’eau a foutu en l’air les deux baies juxtaposées…
C’est au mieux médiocre, la redondance dans une même salle serveur, ça ne sert pas vraiment, un problème touchant une même salle/rangée de baies/groupe de baies est si vite arrivé !
Si l’on en croit certains (ici et là par exemple), l’hébergeur aurait été victime d’une fuite d’eau, mais cette mention aurait disparu de cet autre ticket d’incident.
Je confirme. J’ai vu passer un ticket incident qui mentionnait bel et bien une fuite d’eau.
Par contre, vouloir censurer cette information après coup
Et j’envoie ma facture à OVH pour le temps passé à rétablir les sites des clients ?
Non car si tu lis ton contrat tu verra qu’il n’y a pas de garantie à 100% de la disponibilité du service.
Sinon, quelqu’un aurait-il des bonnes adresses pour l’hébergement d’un site internet amateur, si possible dans des tarifs comparables à ceux d’OVH ?
Vu la merde qu’ils ont fait sur ce coup-là, ça ne me donne pas envie d’aller chez eux…
Tu as online (illiad). Je ne sais pas ce que vaux leur mutualisé par contre (j’utilisais surtout leur dédié, avant dedibox puis maintenant via scaleway en mode cloud):
Ca aurait été mieux de mettre les deux serveurs dans des salles / datacenter séparés. Après, c’est du mutualisé, quand on veut un truc pro et qu’on le met là dessus, on assume aussi.
C’est pas une armoire qui est tombée comme je l’ai lu ?
" />
Espérons que ça incitera OVH à fiabiliser sa structure mutualisée… 1 sauvegarde par 24h et pas de réplication dans un lieu physiquement éloigné, c’est quand même pas très glorieux.
Après, quand on paye 6€/mois, on peut difficilement prétendre à une indemnisation conséquente…
Ne sur-réagirais-tu pas un peu ?
Gardons la tête froide : qu’est-ce qui t’aurais gêné sur l’incident en question ?
Si tu vas vers un autre hébergeur au même prix, tu auras sûrement niveau de service comparable. Il n’y a pas de miracle.
C’est amusant, en fait j’etais sur “mysql5-49” qui n’a (a pripri?) pas subi de perte de données ni de panne.
" />
En revanche j’utilisais un serveur “nommé “sql**-**.**”, vous devez le remplacer par le host “classique” à savoir NomDeLaBase.mysql.db” et du coup quand ils ont réparé les autres ils ont pété le mien ><
Sur les autre site, j’utilise le code plus recent “NomDeLaBase.mysql.db” donc j’ai rien vu
Normal, l’eau c’est un solvant
Un délai à la fois court et long, surtout en période de soldes pour certains.
Aie! C’est vrai que ca doit piquer un peu pour ceux qui hébergent leur e-commerce.
OVH a les avantages de ses inconvénients : tout est industrialisé, automatisé, optimisé pour avoir le meilleur rapport qualité prix du marché. Par contre en contrepartie t’as peu ou pas de support individuel, et vu l’ampleur qu’a pris cette boite, ils n’ont plus la réactivité / la capacité de comm’ qu’ils ont pu avoir à leurs débuts.
Après oui, j’ai des serveurs chez OVH et Online, je dirais que ça se vaut, avec un petit plus chez Online pour les débits sur des dédiés d’entrée de gamme.
Si c’est pour du serveur : scaleway est top et l’infra online.net est largement meilleure que celle d’ovh (voir les photos de certains datacenters d’ovh, ça fait peur).
Si c’est pour de l’hébergement de site uniquement, je conseille depuis des années infomaniak.ch qui n’a jamais failli (mais probablement plus cher que la concurrence).
Au vu de l’incident et de la communication OVH donne juste l’impression d’être totalement incompétants… Je saurais au moins quel hébergeur mutualisé je ne choisirais pas dans le futur
En mutu je suis chez O2switch depuis des années, je recommande. Mais je n’ai pas de sites “sensibles”, donc je ne peux pas trop juger leur réactivité en cas de pépin.
Merci à vous tous pour vos retours.
" />
Dans le genre facilité d’usage je suis passé à scaleway + docker via webgui “rancher” http://rancher.com/ ). Ca m’a permis de faire de la veille et de me mettre à jours niveau architecture (load balancers, conteneurs, orchestration, deploy-chain) mais bon là c’est le coté geek faut avoir envie de regarder “sous la jupe”.
L’avantage d’avoir ses éléments dockerisés c’est que tu peux changer de fournisseurs cloud -théoriquement- facilement et conserver ses services variés.
On peut juste leur reprocher le manque de transparence, mais les mutualisés c’est pas fait vraiment fait pour héberger des services critiques… si vous voulez de la haute dispo et des sauvegardes toutes les heures il y a d’autres offres…
J’ai un ami qui taff la bas. Il m’as dit que c’était un écureuil qui avait bouffé les câbles.
Ah le bordel. Comme quoi tout est possible.
Mais; sinon, blague à part, c’est des mulots qui as bouffé quelques câbles et avec la petite fuite d’eau.. BOOOOM
Surement pour cela que framasoft est passé aux chatons (https://chatons.org/ ) et online aux poneys (http://as12876.net/ )
(j’adore mes tracert vers mes serveurs “ xxx.poneytelecom.eu”)
Ça m’intéresse. Quel genre d’écrits est-ce ? Possible de me MP à ce sujet ?
" />
Héberger des sites professionnels sur un mutualisé alors que l’on a de bons VPS accessibles à 3€/mois (aussi bien chez OVH que chez Scaleway/Online)… Il faut mettre un peu plus les mains dans le cambouis mais c’est probablement la meilleure option pour garder la main sur ses données, faire ses backups, switcher sur un autre serveur/VPS…
Le problème c’est aussi avoir le temps/compétence de le faire de manière sérieuse. C’est simple d’installer un LAMP mais ça prend du temps de le faire évoluer (mise à jour de sécurité, répartition de charge entre plusieurs serveurs (comment ça se passe lors d’un reboot, il faut pas que tout soit down)…)
Bof, OVH est l’hébergeur lowcost français, on paye une misère en hébergement (premier prix à quoi ? 30€ HT/an). Perso à ce prix j’y mets rien de critique. Je connais des sites e-commerce qui ont ça comme hébergement, m’enfin ça me semble pas fiable. Je vois mal un vendeur physique ne pas vouloir louer plus cher qu’un placard à balais pour exposer ses produits.
Les infos critiques elles sont à sauvegarder du coté du client aussi. Tu achètes un espace en ligne. Tu sais qu’il y a une sauvegarde par jour. Si tes données sont critiques tu es autant en tord que l’hébergeur. (Je pense)
ça dépends, la fuite d’eau est peu-être induite d’une autre grosse bourde de leur part ou que sais-je. Et ils ont intérêt à ce que ça ne s’ébruite pas (ce sont des suppositions pour justifier une potentielle censure de la fuite d’eau, ne pas prendre pour argent comptant).
Bonjour
Pardon d’utiliser ce moyen pour communiquer avec toi,
mais j’ai un problème avec les MPs & le forum :
Je suis abonné depuis peu.
J’ai un compte avec identifiant, mot de passe, adresse mail (et avatar).
Je peux consulter les articles dans leur intégralité.
(C’était la raison de mon abonnement …)
En voulant réagir à ton commentaire en t’envoyant un MP,
je me suis aperçu que je ne pouvais accéder ni aux MPs,
ni au forum (en étant connecté en tant que ManX1)
Quand je clique sur “jackjack2” d’un de tes commentaires,
puis sur “ENVOYER UN MP”, un nouvel onglet s’ouvre sur une page
https://forum.nextinpact.com/messenger/) qui dit :
Désolé, il y a un problème
The page you are trying to access is not available to guests, but may be available if you sign in.
Code d’erreur 2C137/1
Sur cette même page, il y a un bouton “Utilisateur existant ? Se connecter” sur lequel je clique
et qui me bascule sur une autre page https://forum.nextinpact.com/login/) avec 2 champs à renseigner :
Je saisis donc les mêmes identifiants que j’utilise pour être “connecté” à Nextinpact,
(la case “Se souvenir de moi” étant cochée) et clique sur le bouton “Se connecter”,
et ça m’affiche ça :
The Nom d’affichage ou adresse email you entered does not belong to any account. Make sure that it is typed correctly.
J’ai répété la manip x fois avec, soit mon “Nom d’affichage” (ManX1), soit mon adresse mail et j’ai toujours le même résultat.
J’ai essayé avec “Mot de passe oublié”, il ne reconnait aucune de mes adresses mail !
Il n’y a pas d’erreur de saisie (Identifiants mémorisés par Firefox).
J’accepte les cookies.
Mon bloqueur de pub est désactivé pour tout Nextinpact.
J’ai envoyé un message à Nextinpact, via la rubrique “Contactez-nous”, en exposant mon problème.
Je n’ai toujours pas de réponse …
Je ne vois nulle part de moyen de créer un compte “forum” indépendant d’un compte “abonné”
Il y a un truc qui m’échappe, j’ai raté quelque chose ou il y a un bug ?
Merci de ton (vos) aide(s)
ManX1
C’est 6€ par mois, je ne sais pas combien de personnes il y a dans l’équipe.
Ca fait 15 ans que je suis chez Infomaniak.ch pour du mut, leur offre est top.
Et il n’y a pas d’offre “cloud” pour remplacer le mutualisé ? avec des serveurs virtualisés qui s’adapte en live au besoin ?
Et tous ceux qui se plaignent des backup toutes les 24 heures “à peine” côté OVH, petit article ou l’on apprend quelques infos intéressantes ;)
https://www.ovh.com/fr/blog/realiser-un-million-de-backup-bases-de-donnees-par-jour/
Infomaniak c’est le top, mais ça reste cher pour un simple site personnel/blog
" />
Malheureusement, des problèmes, que ce soit avec OVH et Dedibox/Online, j’en ai eu plein.
Problèmes électriques il y a ~11ans chez OVH car après un test électrique la clé pour ouvrir le panneau des disjoncteurs était coincé en position fermé… (une grosse partie de la salle coupée).
Je suis un des premiers clients Dedibox.Entre les premiers serveurs C7 qui avaient des problèmes de watchdog avec le kernel Debian, résultat : freeze du serveur de façon aléatoire. Aucune solution côté Dedibox à part un “Désolé mais on ne peut rien faire” (ce qui est vrai, mais au final il y a un impact)Autre problème, J’ai du me battre pendant un mois, faire une dizaine de réinstallation d’OS, pour leur prouver que mes problèmes de compilation venait d’un disque defectueux et/ou processeur et/ou mémoire. (pareil, ça arrive, mais toujours des impacts)Plus récemment, carte mère morte, toute les données perdues, aucun disque déplacé sur une nouvelle machine. On repart de zéro avec les sauvegardes.
Je n’ai eu aucun remboursement, ni geste commercial à aucun moment. En gros le support d’Online (comme celui d’OVH maintenant) est froid comme la glace, il ne fera rien de plus qui ne soit pas déjà marqué dans leur CGV. Bref, je ne conseillerais ni l’un, ni l’autre, ni aucun autre hébergeur. Pour moi chacun est pareil. Tous les problèmes que j’ai eu, j’aurais pu les avoirs chez un autre hébergeur. Et au final, je les aurais aussi probablement chez le prochain.
Je ne comprends pas trop tous les commentaires négatifs sur cette affaire… J’ai moi meme été bien inpacté sur le site de mon asso indisponible pendant presque 24h…
Certe j’ai cherché un peu si ca venait de moi (forum et too many connections) mais ensuite je suis allé sur la page des incidents et l’incident sur les bdd etait mentionné dans un post. Ce post a été mis à jour au moins toutes les heures pour indiquer le travail en cours, puis un message a été mis en place sur le manager indiquant le post à suivre et les tickets demandant des renseignements (j’en ai ouvert 2) ont été traités dans l’heure…
Après je ne comprends pas trop le pourquoi des changements de nom des serveurs, mais ces changements étaient eux aussi indiqués…
C’est du mutualisé à qq euros par mois, il y a un backup par jour et plusieurs jours de backup dispos, on n’est pas sur de la haute dispo à plusieurs centaines d’euros par mois… On peut ptet critiquer leur installation, peut être que le pb aurait pu être éviter, mais héberger une application critique sur du mutualisé est tout aussi discutable… Ca doit faire 10 ans que mon site est chez OVH, c’est le premier incident de ce genre et sur ces 10 ans je ne suis pas sur d’atteindre les 24h de non dispo…
Faut voir les contrats et s’ils devront rembourser certains clients mais je dirais “à eux, je dirais pas grand chose”
Evidemment si tu me parles de problème survenus en 2006, il y’a onze ans…
" />
De mon coté zéro problème depuis 12 ans
Oui, merci ! Mais je n’ai pas encore pris le temps de te répondre, désolé
" />
+1000
Si tu veux tester, ils font -30% juste aujour’hui, avec le code “bigsun”. Ca fait l’abo annuel à 50.4€ au lieu de 72€.
Une communication de leur part qui fait un bon résumé https://www.ovh.com/fr/blog/hebergements-web-post-mortem-incident-29-juin-2017