Panne des sites de presse français : que s’est-il passé chez Oxalide ?
Jean Kévin a encore frappé !
Le 20 janvier 2015 à 11h03
6 min
Internet
Internet
Vendredi dernier, les sites d’une partie de la presse française ont été indisponibles pendant plusieurs heures. Au cœur de cette panne qui a rapidement pris une ampleur importante : Oxalide. L’hébergeur gère en effet de très nombreux sites français, dont plusieurs grands médias. Si l’entreprise a écarté la piste d’une attaque extérieure, elle n’a laissé filtrer que peu de détails sur ce qu'il s’est passé. Nous avons voulu en savoir plus.
France Info, Le Parisien, L’Express, 20minutes, Marianne, Slate, Mediapart, Gamekult, ZDNet, mais aussi Alinea ou Sushi Shop. Voilà une partie des victimes de la panne qui a touché le réseau de l’hébergeur Oxalide vendredi 16 janvier, laissant leurs sites hors-ligne toute la matinée. « Le 16 janvier à 10 h, l’infrastructure de cœur de réseau a subi des dysfonctionnements qui ont impacté l’intégralité de nos clients pendant 90 minutes. […] La totalité des sites et services hébergés par Oxalide était de nouveau disponible à midi » expliquait l'hébergeur dans un billet de blog publié le jour-même.
Avec la vague de défigurations de sites qui a eu lieu sur le web français quelques jours plus tôt, beaucoup ont craint qu’Oxalide ait été victime d’une attaque extérieure. Certains avançant même leurs propres explications de l’incident. « Envisagée dans un premier temps, du fait de l’actualité, une attaque de type DDoS, rapidement identifiable, a pu être écartée » répond l’hébergeur. Le problème vient bien de son propre réseau.
Tous les sites de Conde Nast ont été hackés, comme la plupart des sites médias. Sidération & inquiétude
— Sarah Herz (@sarahlovesparis) 16 Janvier 2015
Que s’est-il passé ?
« À 9h30, on a commencé à avoir les premiers cris dans la rédaction, ce qui est souvent un premier symptôme ! » nous explique Didier Cros, directeur des opérations au Parisien. Le site est ensuite redevenu accessible à 12h15. « On a à peu près eu 2h30 de déconnexion. C’est beaucoup trop long, et très, très dur pour un site d’info. Surtout dans une période aussi chargée en termes d'actualité. Techniquement parlant, c'est plutôt une belle réaction » estime-t-il.
Concrètement, le réseau d’Oxalide a simplement disparu d’Internet, comme l’explique en détail le spécialiste Stéphane Bortzmeyer sur son blog. Dans les faits, les routeurs d’Oxalide ont arrêté d’annoncer les bonnes routes vers les serveurs où sont hébergés les sites peu avant 9 h. Une fois ces routes perdues, le réseau est hors du Net. Les routeurs tentent à la chaine des routes connues, avant de se résigner. Les bonnes routes sont ré-annoncées par les équipements d’Oxalide vers 10h20, pour 1h30 de déconnexion. « Il n'y avait plus d'annonce BGP durant l'incident » confirme un client de l’hébergeur, qui a obtenu les mêmes données.
Cette version est également confirmée par le spécialiste des datacenters Zayo (ex-Neotelecoms), qui héberge des serveurs d’Oxalide. « Ce sont les routeurs d’Oxalide qui ont été touchés, alors que les routeurs de nos autres clients ont continué à fonctionner normalement », expliquait ainsi la société à ZDNet vendredi.
À l’origine de l’incident, une erreur. « Un câble branché là où il ne fallait pas » nous explique un client de l’hébergeur, sur la foi du rapport d’incident. « Oxalide confirme l’erreur humaine. Une erreur de brassage (de connexion des câbles réseau aux routeurs) qui a généré un broadcast storm, une ‘tempête de réseau’. La mauvaise connexion envoie des infos qui n’ont pas lieu d’être sur des équipements qui les renvoient vers d’autres, jusqu’à saturer le réseau » affirme-t-il. Ce déroulement nous a été confirmé par un second client.
La panne a touché le réseau d’administration, qui permet à Oxalide de gérer sa plateforme. L’hébergeur était ainsi coupé de sa propre plateforme. « Ils ont éteint le réseau d’administration » qui commande entre autres l’envoi des routes jusqu’aux serveurs hébergeant les clients, nous explique-t-on encore.
Même si l’accès était restauré vendredi après-midi, il était encore instable pour certains clients. Le groupe CUP Interactive (ZDNet, Cnet, Gamekult) a par exemple eu des difficultés avec son CMS (interface de gestion de contenus) même une fois les sites rétablis. Les clients d’Oxalide étaient accessibles via « des solutions de contournement », selon l’hébergeur qui travaillait à régler le problème et rétablir un accès pérenne.
Des instabilités ont également été notées chez d’autres clients durant l’après-midi. L'hébergeur a ainsi dû identifier le problème le matin et annoncer de nouvelles routes, et ce, sans son système d'administration.
« Je ne leur retire pas ma confiance »
Une question se pose alors : pourquoi autant de sites de presse sont-ils chez Oxalide, au risque de voir une grande partie des sources d'informations françaises disparaître du web en cas de problème ? « Parce qu’ils correspondent à ce que tout le monde cherche : de l’infogérance pendant que les équipes des sites diminuent. Ce ne sont pas les moins chers, on est loin du low cost. Ce serait une erreur de croire que tout le monde y est pour le prix » affirme Emmanuel Parody, directeur des rédactions de CUP Interactive. Lorsqu’ils ont quitté le groupe CBS début 2014, les sites qu’il dirige ont dû entièrement migrer vers une nouvelle plateforme, ce qu’Oxalide aurait selon lui bien géré.
Pour lui, le succès d’Oxalide tient à un bon bouche à oreille entre responsables techniques qui ont besoin de soutenir de fortes montées en charge. Un contrat qui a été en partie rompu vendredi. « On est tous refroidis, mais ils ont géré les choses en toute transparence. Je ne leur retire pas ma confiance » assure-t-il. « L’incident de vendredi ne changera rien. Le zéro défaut n’existe pas. Ils ont eu une gestion de la crise très propre par rapport à ce que j’ai vu ailleurs » appuie Didier Cros du Parisien, qu'Oxalide a appelé à plusieurs reprises dans la journée.
Ce n’est pourtant pas l’avis d’autres clients, pour qui il s’agit du problème de trop. « La confiance que nous avions dans cet hébergeur a été plusieurs fois mise à mal et cette fois, ce sera sûrement la dernière » nous affirme l’un d’eux. Pour se prémunir d’une redite, l’hébergeur met en place des barrières pour empêcher une prochaine « tempête de réseau » de prendre une telle ampleur. « C’est comme ça qu’on apprend. C’est surprenant parce qu’on a des solutions technologiques qui nous prémunissent de ces problèmes, alors qu’on reste à la merci d’un simple câble ! » philosophe l'un des clients interrogés.
Panne des sites de presse français : que s’est-il passé chez Oxalide ?
-
Que s’est-il passé ?
-
« Je ne leur retire pas ma confiance »
Commentaires (63)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 20/01/2015 à 13h17
Devant le PC qui appartient à ma boite " />
" />
Le 20/01/2015 à 13h18
Le 20/01/2015 à 13h20
Le 20/01/2015 à 13h22
Bin ça l’aiderai à mourir et ça m’arrangerait (vieux machin sous WinXP) " />
Le 20/01/2015 à 13h37
Le 20/01/2015 à 13h54
Le 20/01/2015 à 14h00
Je ne suis pas expert réseau mais il existe des raison de ne pas avoir de spanning tree sur certains protocol ou liaison, de mémoire certains équipements iSCSI n’apprécie pas trop, idem pour les ports de stackage sur d’autres machine.
Ceci dit ça n’excuse pas totalement la défaillance d’Oxalide, comme le dit brazomyna ce genre de cas doit être envisager et les procédures adaptés avec.
Et pour avoir eu quelques expériences avec eux je dirais que c’est un prestataire correct. Leur réputation est peut être un peu surfaite mais à leur décharge niveau communication il présentait plutôt bien et ils proposait quelques solutions type un peu plus efficace et recherché que ce que proposait d’autre hébergeur à une époque (aucune idée de ce qu’il en est actuellement).
Le 20/01/2015 à 14h07
Le 20/01/2015 à 14h07
RSTP
Le 20/01/2015 à 14h11
Le 20/01/2015 à 14h24
" /> parfait
Le 20/01/2015 à 14h25
Rapid Spanning Tree Protocol (RSTP)
en gros c’est un protocole qui, même en cas de bouclage, permet de désactiver certaines routes, c’est ce qui permet de faire volontairement des boucles réseau dans le but de faire de la redondance, si l’un des nœuds tombe, l’un des nœud alors désactivé est réactivé afin de continuer, certes avec un chemin plus long, d’acheminer les données.
donc en cas de bouclage involontaire, ce même protocole vas se mettre en place et désactiver l’un des ports afin justement que le bouclage disparaisse
Le 20/01/2015 à 14h30
Le 20/01/2015 à 14h35
ha oui tiens, effectivement " />
Le 20/01/2015 à 16h02
Le 20/01/2015 à 18h11
Salut,
Y a un truc qui me chiffonne…
“un broadcast storm, une ‘tempête de réseau’.”
Une “broadcast storm” est une “tempête de broadcast” et non de réseau(x). Broadcast se traduisant par “diffusion à tous”; sous entendu de trames (couche 2) ou paquets (couche 3) selon la couche du modèle OSI.
Mais ce qui me titille le plus, c’est cette idée que des broadcast se transmettent entre des réseaux via des router. Étant donné qu’un des rôles principal du router est de les confiner à l’intérieur d’un LAN (avec qques exceptions, ex: relais DHCP).
Je ne parviens pas à comprendre le lien entre broadcast et BGP.
De ce que j’ai compris, il s’agit de l’arrêt de propagation de route(s) via le protocol BGP, dû à un branchement érroné, rien de plus.
Alors PQ? parle-t-on de broadcast storm?
Si qqu’un peut éclairer ma lanterne… Merci d’avance.
Le 20/01/2015 à 18h12
heu une erreur de câble ok
pourquoi ne pas l’avoir débranché et rebranché au bon endroit ?
2h30 pour ça, cela paraît louche =)
Le 20/01/2015 à 18h16
Le 20/01/2015 à 18h49
A mon avis la tempête de broadcast a saturé les équipements réseaux et/ou les liens, d’où un effondrement du réseau local, d’où une impossibilité de traiter les paquets BGP, d’où un effondrement de la connectivité extérieure..
Le 20/01/2015 à 18h59
Les administrateurs ne sont pas forcément sur site. C’est possible que les équipements soient hébergés (hostés) directement chez Zayo, avec un simple technicien de Zayo pour effectuer les opérations sur site (“Branche un câble entre tel port et tel port”).
Le 20/01/2015 à 19h10
Le 20/01/2015 à 20h39
Ça semble étrange dans un datacenter.
Mais ça pourrait se discuter selon l’environnement et les impératifs SSI.
Le 20/01/2015 à 21h14
Les paquets de broadcast remontent au CPU du routeur, ce qui en cas de broadcast storm va le saturer à coup sûr, donc tous les process du routeur vont lagger, y compris le process BGP… Du coup les sessions BGP finissent par time outer et donc les routes disparaissent d’Internet.
C’est pour ça que dans un réseau administré correctement, tous les switches sont configurés pour limiter le nombre de paquets de broadcast envoyé par secondes.
Le 21/01/2015 à 00h05
En parlant de site indisponible, j’ai eu droit à une indisponibilité de NXI à l’instant.
Depuis qu’ils passent par CloudFlare, j’ai l’impression que le souci revient régulièrement, une fois par trimestre en moyenne.
Le 21/01/2015 à 21h32
Le 22/01/2015 à 06h16
Salut à tous,
Désolé pour le délai de réponse mais je n’étais point là. J’étais coincé dans une loop ;-))
Merci pour vos retours. Ça éclairci déjà un peu plus les choses.
Bon, je ne suis pas spécialiste en BGP ni en routage “border
gateway” mais de ce que j’en sais ce type d’appareillage qui gère ce
type de protocol sert “uniquement” entre FAI et/ou très grosses
structures. Right?
Quant aux “autres” (OSPF, EIGRP… RIP ;-) ) sont plutôt réservés pour l’intérieur des structures (Interior Gateway Protocol) indépendament de leur taille.
Du moins, c’est ce que j’en ai compris durant les cours CCNA.
À partir de cela, vous semble-t-il cohérent d’avoir un routeur qui gère du BGP d’un côté et qui de l’autre est directement connecté à un LAN (des VLAN, sans doutes)?
Moi pas. D’où mon questionnement concernant le rapport entre une (des) tempète(s) de broadcast et le routage BGP.
Voilà. Merci encore pour vos retours.
A+
Debcool
Le 20/01/2015 à 11h07
Et les média devraient arrêter de faire un foins autour d’un problème alors qu’ils ne connaissaient pas l’origine du problème.
Ils ont quasiment tous laissé tout entendre que ça pouvait être un piratage (suite au différents sites piratés en 3 jours) alors qu’ils n’avaient strictement aucune information.
Et il s’agit d’une bête erreur humaine. Comme quoi.
Le 20/01/2015 à 11h09
Le 20/01/2015 à 11h09
Dans une urne funéraire tu veux dire ? " />
Le 20/01/2015 à 11h16
Donc en gros si on comprend bien leur explication, c’est un stagiaire qui a fait une boucle dans le réseau local ? " />" />" />
Le 20/01/2015 à 11h18
“le succès d’Oxalide tient à un bon bouche à oreille”
Mouais je me suis demandé aussi pourquoi ce succès, il y’a du réseau dans l’air , et pourtant ce sont des mec de l’epita donc ca doit venir d’ailleurs, sans doute la famille
Le 20/01/2015 à 11h18
“Plus dangereux que l’attaque de type DDoS , il y a la boulette de type VDM.”
© 2015 - Oxalide sysadmin
Le 20/01/2015 à 11h22
Oxalide reste tout de même le meilleure hébergeur avec lequel j’ai pu travailler. Des réponses aux ouvertures de ticket dans l’heure, aide technique efficace. Lorsqu’un de nos sites s’est fait pirater, un technicien est resté au téléphone avec vous pendant 2h pour chercher les failles et parcourir les logs c’est quand même cool.
Bref, ils font du super boulot et gardent notre confiance à 100%. C’est pas une simple erreur humaine qui va changer ça.
Le 20/01/2015 à 11h25
La faute au stagiaire.
Le 20/01/2015 à 11h29
Ça c’est Roger à qui on a refusé son augmentation… Ou alors c’est juste Kevin le stagiaire à qui on a proposé avec regret d’aller se faire la main sur le terrain. Une fois compris ce qu’il se passait il s’est surtout fait la malle " />
Le 20/01/2015 à 11h37
Le 20/01/2015 à 11h39
Le stagiaire pourra mettre “broadcast storm” sur son CV !
Le 20/01/2015 à 11h42
Ca méritait d’être corrigé, effectivement " />
Le 20/01/2015 à 12h01
Tu veux que les médias arrêtent de diffuser des infos non-vérifiées ? Tu veux les mettre au chômage ou quoi " /> ?
Pour être plus sérieux, je pense que c’est le problème d’un info qui nécéssite de plus en plus de spécialistes alors que les grands médias sont par définition généraliste et font de plus la course au buzz…
Le 20/01/2015 à 12h05
Ouais enfin tu peux pas non plus être derrière chacun de tes employés à chaque moment…
Puis c’est pas un problème d’organisation, au pire c’est une négligeance au moment de l’embauche (Et encore, même les meilleurs peuvent faire d’énormes boulettes…)
Le 20/01/2015 à 12h07
Si c’est bien un tech… Chez un ancien employeur, un commercial qui voyait traîner un RJ45 s’est dit que c’était pas normal et que ça devait bien se brancher qqpart. Le switch lui a paru un bon plug… Sauf que l’autre extrémité du câble y était déjà branché… Broadcast storm, 1/2h (petit parc) à localiser >_<
Le 20/01/2015 à 12h08
Comme c’est étrange, celui qui dénigre ne veut pas qu’on le nomme. On assume pas ?
Le 20/01/2015 à 12h21
J’avais dans l’esprit que les équipements réseaux modernes savaient isolr les boucles réseau pour les déconnecter…
Le 20/01/2015 à 12h22
un câble mal branché qui coupe les plus gros sites français haha. j’espère que les centrales nucléaires ne sont pas gérées de la même façon sinon ça craint un max.
Le 20/01/2015 à 12h24
Le 20/01/2015 à 12h30
La boucle réseau, erreur qui arrive facilement, ne pardonne jamais. Surtout sur des archi multi-DC
Le 20/01/2015 à 12h30
Le 20/01/2015 à 12h33
Oui, ils savent le faire… pour peu que le protocole (STP) soit activé paramétré proprement. " />
Le 20/01/2015 à 12h35
Pour les amateurs, l’incident vu du côté BGP
Le 20/01/2015 à 12h36
Pas besoin d’être journaliste spécialisé pour balancer une information.
Si t’es pas un con de journaliste tu balance pas une info pas vérifié et tu lance pas la rumeur d’un piratage.
Je ne vois pas en quoi ça nécessite une spécialisation en informatique.
Le 20/01/2015 à 12h43
sais pas pourquoi, mais personnellement; je verrais bien les nords-coréens derrière tout cela " />
Le 20/01/2015 à 12h46
Le 20/01/2015 à 12h46
Oui mais là on en revient à l’autre problème : La course au scoop et au buzz
Les médias généralistes cherchant à faire du clic, s’ils se contentent de dire “on n’a pas plus d’infos” ils perdront en visites…
Et puis quand tu veux traiter d’un sujet, je pense quand même que disposer de spécialistes est souvent indispensable, car combien de fois on lit des articles truffés de contre-sens ?
Le 20/01/2015 à 12h48
Le fil rouge sur le bouton rouge, le fil bleu sur le bouton bleu…
ça fait un bon sous titre non? " />
Ah régis et le branchement de cable, pour une fois qu’il y a un cable de trop de branché et pas un cable de moins genre sectionné ou débranché. " />
Le 20/01/2015 à 12h49
Le 20/01/2015 à 12h49
Le 20/01/2015 à 12h54
Ah mais je dis ça, tout sujet compris ^^
C’est pour ça que je n’accorde plus trop de crédits aux grands médias généralistes
Le problème étant : Comment trouver des info fiables sur des sujets que l’on ne maitrise pas soi-même ?
Le 20/01/2015 à 12h57
Le 20/01/2015 à 12h58
Le 20/01/2015 à 13h05
C’est gentil de proposer des liens déjà dans l’article " />
Le 20/01/2015 à 13h08
" /> Pour ma défense, j’étais en train de manger " />
Le 20/01/2015 à 13h09
Le 20/01/2015 à 13h11