Connexion
Abonnez-vous

[MàJ] La panne AWS est terminée

Le 21 octobre à 08h10

Mise à jour du 21 octobre à 8H10 : Dans un message publié à 00h53 (heure française) cette nuit, AWS a informé que sa panne était résolue. La société explique que tout est parti de problèmes de résolution DNS pour les points de terminaison DynamoDB dans la région US-EAST-1. À cause de certaines dépendances à cette région (Virginie du Nord), d’autres ont été touchées.

Après quoi, le sous-système EC2 a lâché, entrainant une cascade de problèmes dans les instances liées. La panne s’est ensuite étendue au Network Load Balancer (équilibrage de charge), entrainant « des problèmes de connectivité réseau dans plusieurs services tels que Lambda, DynamoDB et CloudWatch ».

Tout est rentré dans l’ordre, même si un arriéré de messages était encore constaté dans des services comme AWS Config, Redshift et Connect au moment de la dernière mise à jour.


Mise à jour de 15h30 : AWS dit avoir trouvé la cause de la panne et les réparations seraient bien avancées. Certains services, notamment Signal, fonctionnent de nouveau.


Article original de 10h54 :

La région Virginie du Nord rencontre actuellement de gros problèmes chez Amazon Web Services. Sur le site dédié, on peut lire effectivement :

« Nous pouvons confirmer des taux d’erreur significatifs pour les demandes adressées au point de terminaison DynamoDB dans la région US-EAST-1. Ce problème affecte également d’autres services AWS dans la région US-EAST-1. Pendant ce temps, les clients peuvent ne pas être en mesure de créer ou de mettre à jour des demandes d’assistance. Les ingénieurs ont été immédiatement mobilisés et travaillent activement à atténuer le problème et à en comprendre pleinement la cause profonde »

Comme on s’en doute, cette panne chez AWS entraine de multiples défaillances, tant les entreprises et autres organisations recourent massivement aux services cloud d’Amazon. C’est le cas par exemple chez Signal, dont le service est inaccessible pour de nombreux utilisateurs. Meredith Whittaker a confirmé le problème sur Bluesky et sur Mastodon.

Confirmation également pour Perplexity, dont les services IA ne sont plus disponibles. Selon les régions, Alexa, Asana, Snapchat, Fortnite, Epic Games Store et même ChatGPT sont également en panne.

Un problème est également signalé chez Cloudflare, sans que l’on sache pour le moment si les deux situations sont liées. Sur son site, l’entreprise indique que le problème a été identifié et qu’un correctif est en préparation, là où Amazon précise dans son bulletin que ses équipes cherchent la cause profonde.

Le 21 octobre à 08h10

Commentaires (42)

votre avatar
pour compléter, Autodesk et HPE sont aussi touché ici
votre avatar
je confirme pour autodesk, sympa de pas pouvoir utiliser sont soft car serveur de licence injoignable
votre avatar
clairement, j'ai 40 collaborateur qui peuvent pas utiliser autocaD ou revit. J'ai aussi mon DSI en PLS ! :)
votre avatar
Rien de tel que des softs sur les machines ! Je ne connais pas d'alternatives a Autocad, mais en passant de Fusion360 à Freecad, j'imagine que j'ai évité d'être bloqué !
votre avatar
" Meredith Whittaker a confirmé le problème sur Bluesky."

et sur Mastodon ! https://mastodon.world/@Mer__edith/115405436746725236
votre avatar
C'est ajouté merci :)
votre avatar
J'ai des soucis avec Veeam chez des clients, je pense pas que ce soit lié mais je trouve la coïncidence bizarre
votre avatar
Postman et dockerhub down :'(
https://hub.docker.com
Et erreur 500 quand ont arrive https://identity.getpostman.com/accounts
votre avatar
Ca pique Docker ...

https://www.dockerstatus.com/
votre avatar
Ca pique très fort ....
votre avatar
C'est le moment de passer à Bruno, un équivalent à Postman mais open-source et avec une arborescence de fichiers facile à sauvegarder :)
votre avatar
Je prends !
votre avatar
Ou hurl en ligne de commande... Là aussi les scripts sont de simples fichiers texte qu'on met dans le repo git.

https://hurl.dev/
votre avatar
Merci, ça a l'air génial pour l'automatisation de tests !
votre avatar
Je n'étais pas au courant de la panne.
Je dois plutôt bien faire mes choses. (o:

Une opportunité d'apprentissage pour l'avenir : auto-héberger au maximum ses ressources.

Pour les conteneurs : un registre interne.
Accessoirement, il n'est jamais une bonne idée de dépendre d'images Docker Hub, car cela crée une surface d'attaque via canal tiers.
Mon conseil serait de ne plus en dépendre que pour une (poignée d') image(s) de base si vous n'êtes pas capables d'en générer une de zéro, qui reste l'idéal.

Il est tout à fait possible d'immédiatement amorcer la transition en commençant à préparer un tel registre, puis en l'alimentant au fur et à mesure des mises à jour requises avec des images maison.
Processus simplissime à suivre pour toutes les ressources auto-hébergeables. Et ignorer les trolls FUD traduisant cela en "tout, tout de suite".
votre avatar
Bonjour,

Les produits Atlassian sont aussi impacté
De même que Dust (IA)
Cela a l'air plus étendu que seulement Amazon.
votre avatar
Non, je ne pense pas que ce soit plus étendu qu'AWS. C'est simplement que beaucoup dépendent d'AWS, parfois indirectement (peu de gens connaissent l'arbre de dépendance de leurs services).
votre avatar
Une panne côté région US-EAST-1, mais toutes les régions sont impactées :troll:
votre avatar
Normal, ils n'ont pas de serveurs ailleurs :transpi:
votre avatar
Le fameux "on a un back-up et si un DC tombe, on est résilient" mais qui ne marche pas...

Dans ma boîte, le point faible c'était les routeurs internet réseau interne. Celui qui devait prendre le relais n'a pas démarré, et le back-up du second était mal configuré et n'a jamais pu prendre la suite. 1h de coupure, 2 jours de bordel.
votre avatar
C'est à cause de services globaux hébergés dans cette région.
votre avatar
US-EAST1 est le coeur de AWS ... Pour un cloud provider ça craint serieusement que une région qui tousse fasse un tel bordel. Chez nous ça à impacté principalement le SSO SAML sur les comptes. Nos équipes n'ont pas pu se connecter pour gérer les machines. Pour le reste, ça a continué de tourner.
votre avatar
C'est là qu'on voit à quel point AWS a pris une importance malsaine.
votre avatar
Les CDN et les Cloud Provider en général, oui. À centraliser un réseau décentralisé, on devient des SPOF.
votre avatar
Et SPOF le chien ! (je vais avoir besoin d'une macro à force de le répéter)

Apparemment c'est DNS, comme d'hab.
votre avatar
https://downdetector.fr/
Édifiant même si je sais que AWS a ses "salles pattes" partout
votre avatar
Bizarre que Google, Microsoft, et OVH soient touchés par une panne AWS...
votre avatar
Oui j'ai du mal à croire qu'ils passent par AWS.
votre avatar
Clairement... Rien vu de notable sur https://www.status-ovhcloud.com/
Après, il y a des effets de bords et des confusions entres les services certainement.
Ouiiinnn mon service chez OVH marche plus (mais en fait le dit service fait appel à AWS)
votre avatar
Comme dit Olivier Hamant (biologiste) dans son livre "La Troisième voie du vivant", plus on optimise, plus on fragilise. Il fait des parallèles entre le fonctionnement du monde vivant et l'organisation de nos sociétés actuelles. Dans le vivant, la performance et l'optimisation ne sont là que de manière ponctuelle quand il y a un besoin spécifique (ex : j'ai une infection, le système immunitaire se met en mode performance (fièvre) pour dézinguer les sales virus, puis reviens dans un état stable non optimisé, mais résilient - pas possible de rester à 40° en permanence). Dans un état normal, le vivant fonctionne de manière suboptimale, mais hyper résiliente. Bref, l'inverse de la centralisation/optimisation que l'on connait actuellement sur Internet. Cette histoire de AWS, et la semaine dernière de Azure est un bon exemple de ce qu'il raconte je trouve. Je vous invite à lire ce bouquin qui est très intéressant.
votre avatar
Il parle de Robustesse, pas de résillience.
votre avatar
:yes: Heureusement que les contrats AWS sont assez bien fait pour ne pas avoir à payer de pénalité à leurs clients, même quand toutes les Availibility Zone de la Region sont down. :8

Plus sérieusement, répartir son infra dans plusieurs AZ d'une même région permet de se prémunir d'un incident de type incendie, panne électrique, coup de pelleteuse, etc... localisé sur un datacenter (bon, sauf quand GCP met 2 AZ dans le même DC...). Mais ne prémunie pas d'incident "logique" sur un déploiement foireux ou problème de routage à l'intérieur d'une région, ou de service managé DynamoDB comme ici par exemple.

L’ambiguïté est sur le mot Availability Zone, mais aussi qu'AWS ne facture par le traffic intra région, permet de facilement créer des règles de firewall entre AZ d'une même région, etc... favorisant donc le design d'infra dans une seule région. Là où un design multi-région nécessite de bien lire la documentation (ce que très peu de personne font de nos jours) et bien plus de travail pour la gestion de l'infrastructure (routage, firewall, interco des VPC, etc...), mais aussi coûte plus cher à cause du traffic inter région. Sans compter que certain services managé sont lié à une région, donc impossible de garantir une disponibilité optimal dessus.

L'idéal étant de répartir son infra dans 3 cloud provider différents, AWS+GCP+Azure, mais avec de ingénierie supplémentaire puisque ca empêche, par exemple, d'utiliser toute les briques logicielles tout-en-un fourni par chaque cloud provider.

Bref, y a pas de secret, et contrairement à ce que ces cloud provider veulent nous faire croire, une infra cloud résiliente coûte très cher, en facture cloud et en ingénierie.
votre avatar
Bref, y a pas de secret, et contrairement à ce que ces cloud provider veulent nous faire croire, une infra cloud résiliente coûte très cher, en facture cloud et en ingénierie.
D'où le fait qu'un projet doit aussi faire son étude de risques. Ici, combien coûte l'indisponibilité versus combien pour la ceinture bretelles.
votre avatar
https://health.aws.amazon.com/health/status
votre avatar
J'ai eu des lenteurs d'envois ce matin sur Signal, mais pas de vraie panne (sans savoir pour AWS).
Je ne savais pas que Signal était hébergé sur AWS :keskidit: On veut éviter un GAFAM, on se retrouve chez un autre, sans le savoir :pleure:
votre avatar
Bluesky semble toujours en PLS, impossible de se logger ce soir.
votre avatar
PARSEC semble également plus ou moins dépendant de AWS :(
votre avatar
A titre perso. j'ai eut plusieurs banques qui bloquaient au niveau de l'identification jusqu'à cette nuit.
votre avatar
Amazon Worked'around Shit
votre avatar
Eh bien je n'ai pas été touché. Rien vu.
votre avatar
Ah bah ça explique la famille en panique "oh, duolingo est en maintenance ! 😱" 😄
votre avatar
Et comme d'hab on voit les débiles ayant acheté de la "domotique" à leur image (contrôle purement smartphone, ce qui signifie in-ze-cloud) se plaindre que plus rien ne fonctionnait!
Mais bon, le mois prochain ils refont la même connerie, c'est le propre du genre...

[MàJ] La panne AWS est terminée

Fermer