Connexion Premium

La grande panne de Cloudflare est partie d’un petit changement de permissions

Des petits ruisseaux aux grandes rivières

La grande panne de Cloudflare est partie d’un petit changement de permissions

Crédits : Unsplash

Le 18 novembre, la panne de Cloudflare a plongé une partie du web dans le noir. Comme on pouvait s’y attendre, l’entreprise a publié un billet explicatif détaillé sur les raisons ayant conduit à cette coupure d’environ trois heures. Les raisons sont complexes et non liées à une attaque ou autre incident de sécurité.

Le 19 novembre 2025 à 17h10

ChatGPT, X, Facebook, Spotify, Canva, Feedly, Marmiton, Doctissimo et autres sites ont été inaccessibles pendant environ trois heures le 18 novembre. Le dénominateur commun ? Ils sont tous protégés par Cloudflare, qui commercialise des services permettant de résister aux attaques distribuées par déni de service (DDoS), entre autres services.

Les solutions vendues par Cloudflare sont devenues omniprésentes, au point que l’entreprise américaine revendique aujourd’hui la gestion de 20 % du trafic web mondial. Un chiffre colossal, qui fait de l’acteur un maillon devenu essentiel du web, avec les conséquences allant de pair en cas de panne. Dans la veine du récent incident chez Amazon Web Services, la panne de Cloudflare a eu des répercussions mondiales et un post mortem détaillé était attendu pour expliquer ce qui avait bien pu provoquer une telle coupure.

D’un petit rien…

La disparition soudaine de Cloudflare aurait pu faire craindre une infrastructure finalement vaincue par une énorme attaque concertée. Il n’en est rien : tout a commencé par une modification apportée aux permissions de l’un des systèmes de base de données (ClickHouse). Elle visait à améliorer la sécurité des requêtes distribuées en rendant explicites les accès aux tables sous-jacentes dans la base de données.

Il reste 72% de l'article à découvrir.

Déjà abonné ? Se connecter

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Commentaires (12)

votre avatar
Cool d'avoir une telle transparence. Les erreurs peuvent arriver comme n'importe où ailleurs et c'est bien de ne pas les mettre sur le dos du stagiaire les assumer.
votre avatar
votre avatar
Tester c'est douter.
votre avatar
Et douter, c’est être faible ! Personne n’a envie d’être faible et de rater… wait
votre avatar
Pour ces sites, c'est possible d'avoir plusieurs DNS pour une même IP / site web, pour éviter ces problèmes ?
votre avatar
Le rôle premier d'un CDN est quand même d'assurer la disponibilité :transpi:

Après, là ça fait du bruit et ça rappelle que le Web est entre les mains de 3 ou 4 acteurs. Mais dans la pratique, il faut voir si le coût de redondance du CDN est intéressant versus le coût d'un perte de chiffre d'affaire sur une panne qui arrive peut être une fois dans l'année.

In fine, les clients s'en accommodent et vont au pire invoquer les pénalités du contrat. (et tomber dans la petite ligne qui dira "parce que fuck you")
votre avatar
Oui, ça ne sert à rien de réinventer la roue, le CDN est censé servir à ça. :merci:
votre avatar
C'est pour montrer à leurs clients qu'un blocage c'est chiant... pour mieux vendre leur produit qui est censé justement lutter contre ce genre de blocage par ddos !
Tu prends une boite pour te protéger sur le continuité de ton service et c'est elle qui te plante avec une petite démo offerte :D

Sinon, c'est assez effrayant, tout comme les pannes AWS ou Azure, de voir qu'une grosse partie du web ne tient qu'à une poignée de boites. C'est peut-être plus orienté Web "occidental" non ?
votre avatar
Pour moi c'est un peu un effet de nos sociétés basés sur la performance: Il y a peu, voir pas, de place pour le second : Tout le monde veux être premier, ou utiliser les services du premier "pour se couvrir.

Clairement, Cloudflare est au top sur l'anti-ddos, et faut avouer que sur ce domaine ça marche (quand ta boite est visée par ce type d'attaques).
votre avatar
Je ne conteste pas qu'ils soient bon sur ce domaine, mais personne d'autres l'est ? Je ne connais pas vraiment les autres acteurs.
Après, tu as surement raison sur la facilité d'aller chercher le meilleur pour avec le meilleur service.
votre avatar
Ce que je comprends de l'explication, c'est qu'il n'ont aucun idée de ce qu'ils passent en production, la boulette est arrivée à 12h20, et ce n'est que 3h plus tard à 15h24 qu'ils sont compris le problème. Entre temps il y'a eu des "mesures d'atténuation" ( bidouillage en production)

Et la correction était active en prod 6min plus tard !

Ce que je comprends de ce postmortem , c'est que le dev se fait directement en production, sans test préalable ! c'est effarant !
votre avatar
Oui après, les tests complets d'intégrations ne sont pas monnaie courante. Certes, chez des gros hyperscalers comme Cloudflare on peut s'y attendre à un environnement de staging pour chacune des briques fonctionnelles... Mais encore, les solutions Anti-DDoS L3/L7 sont très complexes, en constante évolution et donc, il n'y a pas d'architecture de référence, au contraire elle doit s'adapter très vite... De même dans les réseaux opérateurs, très peu passent en staging, en réalité les changements sont directement appliqués en production. Et ça marche très bien, tant que tu as les bonnes personnes derrières, même si un erreur peut survenir. Cependant, l'automatisation complète peut, elle aussi, mener à la catastrophe. Ainsi donc, l'automatisation et les tests sont choses bonnes, mais d'abord avoir les compétences techniques sur les infrastructures opérées. En réalité, aujourd'hui l'automatisation a tendance à diluer la connaissance et la maîtrise, réduisant fortement la compréhension globale d'un système aux équipes techniques.

La grande panne de Cloudflare est partie d’un petit changement de permissions

  • D’un petit rien…

  • Dépassement de limites et propagation

  • Un rétablissement progressif

Fermer