Une panne de plusieurs heures chez Level 3/CenturyLink fait « planter » une partie des services sur Internet

Une panne de plusieurs heures chez Level 3/CenturyLink fait « planter » une partie des services sur Internet

Une panne de plusieurs heures chez Level 3/CenturyLink fait « planter » une partie des services sur Internet

Hier aux alentours de 12h30, le transitaire Level 3/CenturyLink a été victime d’un bug. Sur Twitter, la société ne s’étend pas sur les détails, parlant simplement d’un problème « IP ». On a vu plus précis…

Comme nous l’avions récemment expliqué, un transitaire est un gestionnaire de réseaux internationaux chargés d’acheminer des données entre différentes parties du globe. Ils fournissent ainsi des « tuyaux » (de fibres optiques) pour faire circuler les données. Il est donc utilisé par des opérateurs plus petits pour toucher le monde entier.

En cas de panne, les répercussions sont donc mondiales. En France c’était par exemple le cas de CloudFlare, Canal+ et de Scaleway pour ne citer que ces trois-là. L‘hébergeur explique qu’il a retiré Level 3 de son « mix de transitaires », mais que des problèmes peuvent toujours survenir à cause de « saturations sur d'autres transits » ; le principe des vases communicants.

« Nous avons fait ce que nous pouvions pour nous libérer des problèmes de Level3, mais comme leur réseau ne traite pas les mises à jour BGP, il devient très difficile de contourner leur panne globale », ajoute la société. Pour ne rien arranger, Level 3/CenturyLink est l’un des plus gros – si ce n’est le plus gros – opérateurs de transit et CDN du monde.

Scaleway indiquait qu’il « semble y avoir un consensus mondial de la part des grands transitaires pour contourner le problème de leur côté, ils retirent maintenant Level 3 de leur peering. Nous devrions nous attendre à des améliorations de la connectivité ». Finalement, c’est à 17h12 heure française que Level 3/CenturyLink annonce un retour à la normale.

Espérons qu'un post mortem sera mis en ligne.

Commentaires (13)


Quelques liens intéressants sur cette panne : le bon rapport technique (comme d’habitude) de Cloudfare https://blog.cloudflare.com/analysis-of-todays-centurylink-level-3-outage/ l’autre bon rapport technique de Qrator https://radar.qrator.net/blog/another-centurylink-bgp-incident l’activité débridée BGP de l’AS 3356 (Level3) pendant la panne https://stat.ripe.net/widget/bgp-update-activity#w.starttime=2020-08-16T21%3A00%3A00&w.endtime=2020-08-30T21%3A00%3A00&w.resource=AS3356


A première vue ça a aussi impacté Téléfoot


Le mythe de l’internet décentralisé…



Faudrait vraiment un jour penser aux rôles néfastes de ces grosses boîtes quand même hein…



Tandhruil a dit:


A première vue ça a aussi impacté Téléfoot




Ce n’est pas confirmé, c’est juste leur déclaration. Comme des témoins ont vu que ça marchait pendant la mi-temps, ça fait plutôt penser à une surcharge du serveur. (Mais, avec le serverless et donc la dépendance vis-à-vis de trucs extérieurs, on ne sait jamais.)



lordphoenix a dit:


Le mythe de l’internet décentralisé…




Ce n’est pas faux : les autres opérateurs se sont déconnectés du trou noir automatiquement (Cloudflare) ou manuellement et on a vu que l’Internet marchait sans CenturyLink (sauf évidemment pour les gens dont le seul fournisseur d’accès était CenturyLink).



(reply:1822351:Stéphane Bortzmeyer)




Oui bien sur ma formulation était volontairement simpliste, mais cette histoire est quand même révélateur d’un problème : L’impact d’un seul opérateur ne devrait pas être aussi lourd…


Ce n’est pas n’importe quel opérateur qui est tombé… et malgré ça beaucoup de services sont restés en ligne, même si perturbés (plus ou moins suivant leurs dépendances à L3, ou entre le client et le service).
Donc oui, la décentralisation fonctionne plutôt bien je trouve. Le plus gros problème pour moi vient des CDN qui sont bien trop exploités pour de petites choses… Genre les scripts qui permettent d’afficher ton site correctement.


Ca a impacté aussi xvideos.


NOOOOOOOOOOOONNNN :censored:


Une pensée émue à tous les “services” qui utilisent comme unique transitaire / CDN Level3 ….



Une belle leçon.



On peut aussi parler des FAI qui dépendent quasi exclusivement d’un seul transitaire ( Coucou Free <-> Cogent ! )


En gros résumé d’après le rapport de Cloudflare, ils ont autobloqué leur BGP via une règle flowspec. Les tables de routages étant figé, leurs routeurs continuaient d’annoncer tous les clients en BGP malgré le fait que les clients avait désactivé leur annonce BGP vers CenturyLink. Un beau gros caca en somme.


“Leur réseau ne traite pas les mises à jour BGP” :mdr2:
Merci @ForceRouge pour les détails ;)


Fermer