Azure : Microsoft s’explique sur l’incident du 1er avril

Le 07 Avril 2021 à 08h04

La date tombait bien mal, mais la panne touchant les services Azure pendant une heure était réelle. Microsoft a publié hier des informations sur les causes de l’incident et les mesures prises.

Selon l’entreprise, un pic d’activité a été constaté dans Azure DNS, un flot conséquent de requêtes provenant d’un peu partout dans le monde et visant certains domaines. Ce flot est normalement diffusé à travers des caches et autres techniques de répartition de charge. Et c’est là qu’a résidé le problème.

Une « série spécifique d’évènements » a permis de mettre au jour un « défaut dans le code » du service DNS. Or, pendant que ce dernier croulait sous les requêtes, les clients affectés par des rejets en émettaient de nouvelles.

Ces requêtes, envoyées automatiquement et légitimes, sont venues s’accumuler avec les autres, créant un pic volumétrique qui a saturé la répartition : plus le trafic grimpait, moins le service DNS était disponible.

L’incident a commencé à 21h21 UTC et a été considéré comme réglé à 22h00. À 22h30, la plupart des services étaient considérés comme revenus à la normale.

La fenêtre d’incident était donc réduite, mais tous les services Azure étaient touchés, avec un impact fort sur l’ensemble de tous les produits hébergés de Microsoft, y compris pour le grand public, dont ceux de la Xbox.

L’éditeur indique que plusieurs actions ont été menées pour que ce problème ne se reproduise plus, notamment la réparation du défaut dans le code et l’amélioration de la détection des modèles d’anomalies de trafic.

Commentaires (5)

ElanViolet Abonné

Le 07/04/2021 à 09h28

ça n’aurait pas été plus simple de dire poisson d’avril?

sirchamallow

Le 07/04/2021 à 10h35

Faites comme le ministre de l’éducation, dites que c’est la faute de OVH

MisterDams Abonné

Le 07/04/2021 à 12h58

#2.1

L’argumentaire d’Azure est plutôt du niveau “c’est le stagiaire”.

Globalement on brode autour de “y’avait un bug” en faisant découvrir aux gens que quand un site est pas dispo ça a tendance à faire augmenter la charge sur le serveur à cause des refresh. Breaking news.

Mais bon on laisse le flou sur les possibilités d’une attaque DDoS mal mitigée ou d’une hausse de trafic surprise sur certains domaines.

33A20158-2813-4F0D-9D4A-FD05E2C42E48

Le 07/04/2021 à 13h28

MisterDams a dit:

Globalement on brode autour de “y’avait un bug”

C’est pas la première fois qu’ils utilisent une formule édulcorée pour faire passer un gros m*rdoiement de leur part.

Y’a quelques années, ils m’ont planté un service VSTS (Visual Studio Team Server) hébergé (c’était avant la folie des Gitlab).

Le mail disait texto “Le crash nous a révélé des points à améliorer dans notre stratégie de backup”. En gros, il y avait bien un backup mais ils étaient incapables de le réinjecter dans la base de données… Bref, l’historique des sources était conservé, mais la base des Work Items était irrécupérable.

rachuX

Le 08/04/2021 à 19h42

sirchamallow a dit:

Faites comme le ministre de l’éducation, dites que c’est la faute de OVH

Ça m’a fait marrer. Ou comment des sociétés incompétentes ne savant ni coder correctement ni dimensionner leurs serveurs se trouvent des excuses… no comment.

Catégories

Nous suivre

À propos

Azure : Microsoft s’explique sur l’incident du 1er avril

Granite : IBM lance son pavé dans la mare des modèles de langage pour la génération de code

Stack Overflow signe avec OpenAI

La RATP expérimente sa vidéosurveillance algorithmique pour les concerts de Taylor Swift

FurMark débarque en version 2.3, avec la prise en charge des Raspberry Pi

Boeing Starliner n’a finalement toujours pas décollé…

Chang’e 6 fait route vers la Lune, avec l’instrument français DORN

Pass Monitor : Proton Pass comble (enfin) certaines lacunes

Dirty Stream : quand une application Android peut écraser les fichiers d’une autre

Raspberry Pi Compute Module 4S : jusqu’à 8 Go de mémoire, production jusqu’en 2034

Calendrier de publication d’Ubuntu 24.10 (Oracular Oriole)

Commentaires (5)