Publié dans Internet

6

Gandi revient sur sa panne DNS d’hier

Gandi revient sur sa panne DNS d’hier

Entre 15h26 et 15h48, « deux nœuds DNS sont tombés en panne », provoquant des erreurs lors d’une requête. L’incident n’a duré que 22 minutes, mais un post mortem a été mis en ligne, une transparence appréciable.

La cause principale de la panne est un « bug logiciel » ayant entraîné l’arrêt du serveur. Pour ne rien arranger, cette panne est arrivée en même temps qu’un « incident » sur un réseau interne de l’hébergeur. Ce dernier a causé « beaucoup de bruit dans nos systèmes de surveillance, conduisant à une mauvaise interprétation des alertes déclenchées par les serveurs DNS ».

De nouvelles procédures sont mises en place afin d’éviter que cela ne se reproduise. 

6

Tiens, en parlant de ça :

#Flock a sa propre vision de l’inclusion

Retour à l’envoyeur

13:39 Flock 17
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

On est déjà à la V2 de Next ?

11:55 35
Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Me voilà à poil sur Internet

17:18 Next 16

#LeBrief : fuite de tests AND 23andMe, le milliard pour Android Messages, il y a 30 ans Hubble voyait clair

#Flock a sa propre vision de l’inclusion

Flock 17
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

35
Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Next 16
Logo de StreetPress

Pourquoi le site du média StreetPress a été momentanément inaccessible

Droit 18
Amazon re:Invent

re:Invent 2023 : Amazon lance son assistant Q et plusieurs services IA, dont la génération d’images

IA 11
Un œil symbolisant l'Union européenne, et les dissensions et problèmes afférents

Le Conseil de l’UE tire un bilan du RGPD, les États membres réclament des « outils pratiques »

Droit 5

19 associations européennes de consommateurs portent plainte contre Meta

DroitSocials 16

#LeBrief : Ariane 6 l’été prochain, Nextcloud rachète Roundcube, désinformation via la pub

Chiffre et formules mathématiques sur un tableau

CVSS 4.0 : dur, dur, d’être un expert !

Sécu 16
Une tête de fusée siglée Starlink.

Starlink accessible à Gaza sous contrôle de l’administration israélienne

Web 35
Fibre optique

G-PON, XGS-PON et 50G-PON : jusqu’à 50 Gb/s en fibre optique

HardWeb 52
Photo d'un immeuble troué de part en part

Règlement sur la cyber-résilience : les instances européennes en passe de conclure un accord

DroitSécu 10
lexique IA parodie

AGI, GPAI, modèles de fondation… de quoi on parle ?

IA 10

#LeBrief : logiciels libres scientifiques, fermeture de compte Google, « fabriquer » des femmes pour l’inclusion

livre dématérialisé

Des chercheurs ont élaboré une technique d’extraction des données d’entrainement de ChatGPT

IAScience 3
Un chien avec des lunettes apprend sur une tablette

Devenir expert en sécurité informatique en 3 clics

Sécu 11
Logo ownCloud

ownCloud : faille béante dans les déploiements conteneurisés utilisant graphapi

Sécu 16
Le SoC Graviton4 d’Amazon AWS posé sur une table

Amazon re:invent : SoC Graviton4 (Arm), instance R8g et Trainium2 pour l’IA

Hard 12
Logo Comcybergend

Guéguerre des polices dans le cyber (OFAC et ComCyberMi)

Sécu 10

#LeBrief : faille 0-day dans Chrome, smartphones à Hong Kong, 25 ans de la Dreamcast

Mur d’OVHcloud à Roubaix, avec le logo OVHcloud

OVHcloud Summit 2023 : SecNumCloud, IA et Local Zones

HardWeb 2
algorithmes de la CAF

Transparence, discriminations : les questions soulevées par l’algorithme de la CAF

IASociété 62

Plainte contre l’alternative paiement ou publicité comportementale de Meta

DroitIA 39
Nuage (pour le cloud) avec de la foudre

Économie de la donnée et services de cloud : l’Arcep renforce ses troupes

DroitWeb 0
De vieux ciseaux posés sur une surface en bois

Plus de 60 % des demandes de suppression reçues par Google émanent de Russie

Société 7
Une vieille boussole posée sur un plan en bois

La Commission européenne et Google proposent deux bases de données de fact-checks

DroitWeb 3

#LeBrief : des fichiers Google Drive disparaissent, FreeBSD 14, caméras camouflées, OnePlus 12

Hubble mission maintenance

Il y a 30 ans, Hubble recevait sa première mission de maintenance

Science 0

Des menottes autour d'un rouleau de billets de banque

Les deux principaux responsables de l’agence de cybersécurité ukrainienne accusés de corruption

DroitÉcoSécu 0

Google Messages

Sur Android, Messages fête son milliard d’utilisateurs, de nouvelles fonctions en approche

WebSoft 0

Une femme en blouse blanche et portant des lunettes adaptées utilise un séquenceur à ADN

Tests ADN : 23andMe avoue que les infos d’un « nombre significatif » d’utilisateurs ont fuité

Sécu 0

6

Commentaires (6)


ForceRouge Abonné
Il y a 3 ans

La transparence du post morten est a saluer.

Cependant, pour l’incident, ça montre un manque de connaissance. Le design, qui est fait a tête reposé en amont de l’implémentation, est clairement mal fait:




  • L’anycasting BGP, c’est pour qu’une IP soit toujours dispo. Ca protège d’une merde “niveau 1” locale, comme un serveur qui crash par exemple, le copain a coté prend le relai.

  • Si on met plusieurs plusieurs NS pour un domaine, c’est pour couvrir une merde niveau 2, c’est à dire, quand on n’a mal gérer la merde de niveau 1 au niveau local, ou qu’on perd un datacenter. Le client sait qu’il peut taper sur un second serveur.

    Anycaster les 3 IPs depuis un même serveur, et je dirais même, depuis une même zone géographique, c’est une faute de design, pas un incident.

    Le DNS, c’est l’une des rangés de parpaing qui fait parti des fondations de l’Internet. Si ca tombe, y a juste plus rien qui fonctionne. Le DNS est justement un protocole super simple et basique, qui le rend donc super robuste pour cette raison. Vouloir faire de l’over-ingénieurie au dessus, c’est le fragiliser, et voilà ce qui arrive.


Totoxoros
Il y a 3 ans

Le côté « positif » c’est que sur une aussi courte durée la plupart des résolutions ont du se faire au niveau des caches des FAI (ou autres 8888 ou 1111).


SebGF Abonné
Il y a 3 ans






ForceRouge a écrit :

Anycaster les 3 IPs depuis un même serveur, et je dirais même, depuis une même zone géographique, c’est une faute de design, pas un incident.



Ou un incident provoqué par une erreur de conception.



ForceRouge Abonné
Il y a 3 ans

Je dis erreur de design, tu dis erreur de conception. Pour moi c’est la même chose hein :)


SebGF Abonné
Il y a 3 ans

Mon propos était plutôt sur la causalité. Nous sommes tous les deux d’accord sur le fait que la conception est discutable.

Ce qui me faisait tiquer, c’est le fait que tu estimes que ce n’est pas un incident mais un défaut de conception. Un défaut de conception peut être fonctionnel sans provoquer d’incident. Ce qui n’empêche pas de le corriger aussi avant qu’il n’en provoque. (l’erreur est humaine, constater l’ano avant qu’elle ne provoque des dégâts et dresser un plan d’action pour la corriger est la bonne démarche… L’inverse serait une bêtise par contre)
C’est sur ce lien de causalité que ma remarque portait, ou alors j’ai mal interprété.


ForceRouge Abonné
Il y a 3 ans






SebGF a écrit :

Mon propos était plutôt sur la causalité. Nous sommes tous les deux d’accord sur le fait que la conception est discutable.

Ce qui me faisait tiquer, c’est le fait que tu estimes que ce n’est pas un incident mais un défaut de conception. Un défaut de conception peut être fonctionnel sans provoquer d’incident. Ce qui n’empêche pas de le corriger aussi avant qu’il n’en provoque. (l’erreur est humaine, constater l’ano avant qu’elle ne provoque des dégâts et dresser un plan d’action pour la corriger est la bonne démarche… L’inverse serait une bêtise par contre)
C’est sur ce lien de causalité que ma remarque portait, ou alors j’ai mal interprété.



Ah si si, il y a bien un incident, j’ai pas été très clair en faite. Ce que je dis, c’est que ce n’est pas juste un incident, c’est un vrai problème de design.

Ce que je veux dire, c’est que si le design est fait correctement, il ne peut pas y avoir d’incident autre qu’une erreur humaine sur une action d’admin ou bug logiciel. Dans le cas présent, le problème, c’est que by-design, l’architecture était vouée a avoir un incident, c’était juste une question de temps pour savoir quand est-ce que ça allait arriver.

Je viens de vérifier avec un mtr sur un domaine que j’ai chez eux en “live dns” et c’est toujours le cas. J’ai exactement la même latence et le même traceroute sur les trois serveurs… Peut être que les IPs sont maintenant annoncées depuis des serveurs différents, mais en cas de problème local sur le datacenter, un truc un peu batard comme de la grosse perte de paquet ou alors que la session BGP reste UP alors que les applis sont down,… ca peut retomber. Alors qu’avoir des DNS répartie sur plusieurs datacenter (ce qu’ils ont en plus), ca permet de se prémunir d’un problème local au datacenter.