Lundi 28 et mardi 29 août, toute la production de voiture de Toyota était à l'arrêt. En cause, une opération de maintenance sur les serveurs de la chaine de production de moteurs du constructeur, avait indiqué l'agence de presse Reuters le lendemain.
Une semaine plus tard, Toyota a expliqué dans un communiqué que le problème venait des serveurs qui traitent les commandes de pièces détachées. Lors d'une maintenance effectuée dimanche 27 août, une erreur s'est produite « en raison d'un espace disque insuffisant, entraînant l'arrêt du système ». « Comme ces serveurs fonctionnaient sur le même système, une défaillance similaire s'est produite au niveau de la fonction de backup, et le basculement n'a pas pu être effectué », a ajouté le constructeur.
Toyota a résolu le problème le mardi en utilisant un serveur avec une plus grande capacité et la production a pu reprendre le lendemain. L'entreprise insiste sur le fait que cet arrêt n'est pas dû à une cyberattaque, explique avoir mis en place des contre-mesures et qu'elle allait revoir ses procédures de maintenance pour éviter que cela ne se reproduise.
Reuters a évalué à 356 millions de dollars la perte d'une journée de production pour les 14 usines d'assemblage de Toyota situées au Japon.
Commentaires (52)
#1
356 millions de dollars pour un simple FS full ?
#1.1
voitures non produits > non expédiées > non réceptionnée par le client > voiture non payée
soit en version courte voitures non produits > voiture non payée
C’est pas vraiment une perte de ce montant là, c’est un manque a gagné sur les intérêts, le paiement des voitures arrivera décalé.
J’ai eu le cas y’a pas longtemps chez un fournisseur (qui ne fabrique pas des voitures), clairement … je comprends pas que ça arrive encore avec tout le recule qu’on peut avoir sur ce genre de choses.
C’est le genre de truc qui se monitaure aussi.
Et la ton DD externe est vérolé et tu chiffres toutes les données du serveur .. donc tu fais jamais ça sur un serveur de prod quand t’as un minimum de conscience sécu et prod.
+1
Rah ça rappel des souvenirs ! Nous c’est le FS du serveur de log qui avait sauté (pas de stockage en dehors du fichier en cours sur l’instance Oracle).
anéfé
#1.2
C’est pas déconnant si ça a provoqué un arrêt total de prod, j’ai bossé en maintenance dans une petite usine et quand ça tournait à bloc il me semble de mémoire qu’un arrêt machine entrainait un manque à gagner estimé à environ 10k€/h (autant dire qu’en cas de panne t’as rapidement tous les responsables de services concernés sur le dos en mode pitt bull ) alors là pour un arrêt total de prod sur 14 usines pendant une journée complète c’est pas pas si énorme que ça en fait.
#2
Ca fait cher le Go !
Plus sérieusement, je pense qu’un responsable informatique japonais va avoir un problème pour sa carrière.
#2.1
Oui, un responsable va probablement se confondre en excuses publiques, et pas comme Mark Zuckerberg.
#3
Normale au Japon ils utilisent encore les floppy 3,5
#4
En industrie, un arrêt d’une chaîne de production ça chiffre très très très vite car il y a un tout un effet de cascade. Surtout quand elle marche en flux tendu.
C’est con de se dire qu’après toutes ces années, le classique incident des espaces disques remplis qui stoppent l’IT se produisent encore. La supervision semble un peu défaillante là bas.
#4.1
Quand tu bosse avec de l’industrie qui produit / conditionne a la chaîne tu prends de bonnes assurances ;)
Entre le gars qui se gamelle dans un local réseau ou qui “éternue” sur une jarretière mal branlée, enedis qui coupe la mauvaise ligne HT pour de la maintenance ou autres fait plus ou moins folkloriques tu te rends compte qu’il suffit parfois de moins d’un homme pour faire tomber une infra.
Et fun fact, ces 3 exemples sont du vécu
#4.2
le composant que tout le monde pense présent car sur les plans élec et qui n’y est pas ça drôle aussi (après coup)
#4.3
EDF qui coupe le mauvais bâtiment : vécu aussi. Ce fut un beau défilé d’admins dans le bureau du pilotage (qui était le seul à avoir des PC ondulés) pour arrêter la salle serveur. Et une belle nuit blanche aussi après que l’électricité ait été rétablie.
En vrac :
dd
sur la mauvaise partition. DRP express bonjour#5
Les limites du toyotisme, même au Japon, même dans les usines Toyota (1er constructeur mondial).
#6
Heureusement, leurs autos sont meilleurs que leur service IT
#7
C’est aussi dommage d’avoir eu le backup sur le même système… Ça sent l’économie de bout de chandelle, avec les conséquences qu’on connait.
#7.1
Dans le communiqué en anglais sourcé par l’article: «on the same system»
Mes suppositions:
⇒ Méfiance concernant les détails de la traduction
(en raison de la méfiance évoquée ci-dessus, je me permets d’ignorer the≠a)
Et là, on peut se dire qu’effectivement les systèmes identiques matériellement qui font tourner le même logiciel avec les mêmes données ont le même problème au même moment
#7.2
Pas faux. 😉
#8
La supervision m’a déjà planté une architecture, le script de purge automatique des logs ne fonctionnait plus et le nombre de fichier max dans un répertoire était atteint.
#8.1
Ah oui, du classique aussi
Cela dit, de la base de données qui s’arrête pour cause de capacité mal estimée ou sur activité que le système derrière ne peut encaisser, ça arrive. Après, sans connaître l’infra il est difficile de dire autre chose que du yaka faukon. Et si ça arrive trop tard, les actions de remédiation à la hâte peuvent engendrer de véritables catastrophes allant jusqu’à la corruption des données. Comme indiqué dans le communiqué, leurs back-up semblaient aussi avoir été impactées par l’incident.
Perso dans mon expérience, je n’ai pas connu une seule instance de DB Oracle qui n’a pas pétée en archivelog full lors de sa mise en service. La désactivation des archivelog pour les init de base de données était systématiquement oubliée. Et c’est d’autant plus con quand la remontée d’alerte vient des utilisateurs de l’ERP parce qu’il affiche une stack avec un gros ORA-00257 (de mémoire) tout rouge à l’écran.
#9
D’un autre coté, la limite de conservation des données (Data retention) c’est un point qui est négligé dans pratiquement tous les systèmes qui n’ont pas de contrainte forte en taille de stockage.
Y a qu’a voir un PC desktop win/mac/linux: bien malin celui qui peut dire quelle est la taille d’occupation max que peut atteindre le PC si on ne fait pas manuellement du nettoyage.
#10
24h pour résoudre le problème ? Franchement, si la panne coûte 356 millions de dollars la journée, tu peux trouver une solution quick & dirty en 10 minutes (tu branches le premier disque externe qui te tombe sous la main et tu l’ajoutes au volume lvm), puis tu prends la journée pour implémenter la solution propre.
#10.1
Et tu installes des virus et autres spyware sur la chaine de production ? Ensuite tu lances une campagne de Forensic ? Pas sûr que ce soit plus économique.
#10.2
Je pense que si cela avait été aussi simple cela aurait été fait. Les gigalitres de sueurs qui sont tombés dans les dalles des pièces des admin montrent bien que rien n’est aussi simple.
Les japonais sont tout aussi intelligents que toi, certains même plus
J’imagine que le problème a été multifactoriel, c’est certainement à cause de l’alignement des planètes de l’univers que c’est arrivé. Méfions-nous des jugements hâtifs.
#10.3
Certes, mais si un problème de disque plein cause deux jours de coupure, il y a quand même un problème dans leurs process informatique. Une DB pleine, un disque plein, ça arrive. Ce n’est pas un problème rarissime que jamais personne n’a vu et pour lequel ils ont dû inventer une nouvelle solution.
#10.4
J’en vois pas mal des pbs de ce type y compris en prod ce qui laisse entendre que les process de VABF puis de VSR , ne sont pas aboutis. La présence dans les comités de pilotage de personnels non techniques et plutôt orientés Agile aurait-elle un rapport? ;)
#11
C’est quoi le toyotisme ?
#11.1
C’est une stratégie de production avec très peu de stock, où les pièces sont commandés en permanence selon la production.
C’est injuste de dire que c’est une problème avec le toyotisme lui même, qui est une réussite, mais juste un disque plein, c’est plus un soucis de gestion du parc informatique que du toyotisme.
#11.2
Vidéo 2 minutes
https://www.youtube.com/watch?v=ZhXZAQ6Ki78
Définition du toyotisme
https://www.toupie.org/Dictionnaire/Toyotisme.htm
#11.3
Toyotisme - Wikipédia
#11.4
Merci !
#12
Et encore c’est indiqué par jour et l’incident a durée 2 jours
#13
Et ensuite démissionner et se faire seppuku.
#14
C’est lors d’une maintenance, pas dans un cadre “normal” de fonctionnement. La supervision n’a surement donc rien a voir avec le problème, mais plutôt les actions effectuées dans cette maintenance :
Mauvaise préparation (espaces disponible et nécessaire non contrôlé), ou un comportement inattendu des actions.
Pour que les deux serveurs soit compromis, on peut penser raisonnablement que la saturation n’a pas été instantanée, ils otn du traiter les serveurs l’un après l’autre.
Les dieux de l’informatique ont surement fait en sorte que la saturation du premier serveur soit effective pile-poil quand la maintenance du second s’est terminée. Pour que les pauvres techniciens aient juste le temps de comprendre qu’ils allaient bien être dedans, sans leurs laisser le temps d’empêcher la chose sur le second serveur )
#14.1
Ou alors maintenance sur le Back en premier, puis maintenance sur le nominal qui sature lui-même et le backup.
Déjà vu … c’est pas drôle surtout quand “tout était clean sur le 1er après 15 vérifs”
#14.2
Au début mon chef comprenais jamais pourquoi je lui disais d’annoncer 2 journée d’arrêt au client pour des maintenance d’une heure, mais comme ça au moins je réussissais à avoir une demi journée
Un autre petit [mylife] pour la postérité :
L’“évacuation” d’une piscine olympique + inondation des sous-sols techniques suite à un plantage automate à cause d’une simple différence de potentiel entre la terre dudit automate et la masse du laptop c’était aussi marrant avec le recul
Vraiment on a beau critiquer, des fois un simple grain de sable suffit à faire bien transpirer ^^
#15
Un truc “fun” qui m’était arrivé, c’était une panne sur un cluster de deux serveurs de base de donnée en failover, parce que le disque qui stocke les données temporaires était plein (je crois qu’on leakait des tables temporaires). Après avoir rétabli le service, l’infra s’est posé la question de pourquoi la bascule automatique sur le backup n’a pas fonctionné. Ils ont découvert qu’elle a fonctionné, et même trop bien : en fait le serveur principal avait crashé des semaines auparavant (pour la même raison) et personne ne s’en était rendu compte. Donc ça faisait des semaines qu’on tournait sur le backup qui se remplissait petit à petit jusqu’à crasher à son tour
#16
Non mais le disque externe, c’était pour l’image, hein. Mais il y a bien moyen de se procurer un disque neuf en une heure. Quand tu perds 356 millions par jours, tu n’attends pas deux jours le livreur Amazon pour ton nouveau disque ; tu sautes dans ta bagnole, et tu trouves une solution. Bien sûr, ça suppose une baie disque évolutive et un provisionnement dynamique, mais ça, j’imagine que c’est le cas chez un constructeur réputé pour ses méthodes agiles.
#16.1
On ne sait pas s’ils ont mis 2 jours à corriger le filesystem ou bien s’il a fallu 2 jours pour redémarrer la chaine de production (avec une checklist de vérification à chaque étape de la chaine)
#17
Mouais, à voir. Entre des liaisons au sol globalement loin du niveau des européens, des hybrides désagréables à conduire et aux promesses de conso loin d’être tenues hors urbain (mais qui ont bien fonctionné pour pomper nos bonus, c’était conçu pour)… et même ces hauts de TdB trop brillants et à l’inclinaison mal étudiée qui affectent dangereusement la visibilité de toute la partie basse du pare-brise en conditions très ensoleillées (genre outre-mer).
Même côté qualité, qui a longtemps été le point fort et a drainé du client dont le critère N°1 était la voiture “sans emmerdes”, il y a eu depuis 10 ans de sérieux ratés.
Y’a qu’a regarder les Taxis: Ceux qui aiment conduire (et le font généralement très bien) sont encore souvent (ça commence hélas à changer en zones sous pression ZFE, ou les Toyota-Moulinex ont dû rentrer dans les flottes tandis que les indépendants résistent) en Mercedes (voir BMW)… et les autres (souvent d’origine asiatique et conduisant comme des pieds) sont en Toyota.
#17.1
Et bah j’étais 100% voiture allemande avant (j’ai toujours un e30 325IX de 88) et je peux te dire que ma hybride Auris de 2016 me donne entière satisfaction.
J’ai avait marre plus que marre des réparations en série sur des modèles soit disant hauts de gamme (train, crémaillère de direction, fusées, boite auto… et j’en passe).
J’ai eu zéro problème avec cette caisse (garantie 10 ans si tu l’entretien chez le constructeur). Elle très reposante à conduire et niveau conso, franchement c’est pas mal (3.7 en ville, 4.2 sur route et max 6 litre sur autoroute (à 130 avec la clim))
#18
Y’a ma toyota kaderaté
#19
J’ai eu zéro problème avec ma Mégane Estate DCI 130 (pourtant le 1.9 avait pas bonne presse, dernier d’une longue lignée ayant eu plus de bas que de hauts!) de 2011 non plus jusqu’à un vol en 2021… En 150kkm cela n’a été que l’entretien courant et un jeu de plaquettes, même pas une bougie de préchauffage ni une simple ampoule, pas de zonzon apparu avec le temps, excellente tenue des matériaux intérieurs, une transmission (BVM6) restée aussi agréable qu’immédiatement après rodage! Et Renault est pourtant souvent moins bien placé que Toyota niveau fiabilité, comme quoi le numéro sur lequel on tombe compte aussi.
Certains dans le milieu automobile préfèrent d’ailleurs acheter d’occasion pour cette raison: On peut choisir son exemplaire!
On verra si la 318 break 150cv en BVA8 qui lui a succédé fait mieux, mais pour le même type de voiture nos constructeurs nationaux ne proposent plus que des moteurs downsizés… et sans le double turbo qui gomme la latence. Voir des 3 cylindres en essence à la fiabilité désastreuse (chez Renault comme PSA).
Niveau conso, c’est certes du diesel mais je roule assez vite et même chargé pour partir en vacances avec en prime un porte vélo sur attelage, je suis dans les 6.5 à 6.8l/100km selon le sens du vent et dès que possible plus souvent à 150⁄160 qu’a 130. C’est mieux que la Mégane. Et dans un confort de tapis volant.
Au quotidien l’Auris ferait sans doute mieux que mes 5.5l/100km, déjà pas toujours aux limites hors agglo, mais sur autoroute dans les conditions citées je pense qu’elle serais bien au delà… et en prime quand l’Atkinson s’emballe, le tapis volant devient ULM!
#20
Ah oui, c’est vrai : ce fameux réflexe de blâmer le bout de la chaîne alors que cela fait certainement des années que la fonction informatique doit remonter que :
… comme partout, tout le temps, en fait.
Les premiers fautifs sont les plus hauts dirigeants, incapables d’avoir pu financer, équiper techniquement et fournir humainement la fonction informatique.
Parce que l’informatique est une fonction secondaire, et pas critique, ainsi qu’un centre de coûts, sans répercussion de coûts qu’elle évite (donc coûts négatifs et in fine de revenus qu’elle fait gagner).
Mais continuons de blâmer le bout de la chaîne : c’est tellement plus accessible & jouissif.
#20.1
Tu dois bosser chez Toyota pour être aussi bien informé. Des sources fiables pour étayer cela ?
#20.2
Je pense qu’il y a surtout confusion dans la trad. Moi ce que j’en comprend, c’est qu’il y avait un deuxième serveur avec exactement les mêmes specs et donc la meme taille de FS et que ce qu’il s’est passé c’est que le serveur primaire a eu un FS plein (certainement celui de la DB), la DB s’est stoppé et l’applicatif derrière avec. Comme le serveur secondaire était une réplique du primaire, le FS était également plein au même moment sur le secondaire donc impossible de redémarrer l’appli.
Le plus étonnant c’est qu’il y est autant de temps pour relancer. Après je pense que comme d’autres l’ont souligné, c’est le temps entre le fix, les contrôles, le redémarrage de l’appro et des chaines de prod.
Je bosse aussi dans l’IT Indus et quand une appli de PROD se gauffre, meme si on la redémarre en 10 mins, la prod est grillée sur une demi-journée le temps de tout relancer
#21
Le système de secours n’était pas sur la même machine. C’était sur une autre machine, mais de configuration identique (donc même taille de disque).
#22
Cherchez pas.
Ca a pris du temps parce, tant que c’était offline, ils ont lancé une défrag sur le C:
Et ils ont regardé les petits carrés devenir vert en boulottant des sushis.
#23
Le moment de leur rappeler sa dernière augmentation si elle a été minable, forcément la sanction d’un manque de compétence car sinon ce n’aurait pas été le cas avant de les inviter à prendre le clavier, eux qui émargent au sommet avec forcément les capacités qui vont avec.
Pas de raison de se faire engueuler car leur prime d’objectif maousse fond de quelques % par minute supplémentaire à ne rien faire.
#23.1
Fait beau dans le monde des bisounours ?
Dans cette boite la théorie du ruissellement ne marchait pas des masses : plus t’es compétent moins t’as de chances de monter dans la hiérarchie (faut garder les gens qui savent bosser “en bas” pour faire tourner la boite, y a largement assez d’incompétents pour pourvoir toutes les places de responsables ) et donc moins t’es payé
Le principe de Peter/la loi de Dilbert appliqués à la lettre …
#24
Ouais, en gros t’es un chauffard et du coup tu t’étonnes qu’une voiture conçue pour rouler normalement ne “mouline” à 160. Je roule en hybride (Mondeo 4 donc moteur Ford sous licence Toyota) au max des vitesses réglementaires et je consomme que dalle (5,5L/100 à 130, et en essence) et en prime j’ai largement ce qu’il faut de reprise. Oui c’est sûr que si je commence à rouler comme un con, ça mouline et ça consomme vu que c’est pas fait pour.
#25
Si tu conduis n’importe comment, toutes les voitures sont désagréables. Ce n’est pas lié aux HSD.
Source? J’ai justement une HSD, je consomme moins que mon ancienne diesel alors que j’ai gagné 1⁄3 de puissance moteur thermique en plus… Et la voiture qui consomme le moins sur autoroute, c’est la Prius.
A part ceux qui ont changé l’infotainment par un Android chinois, je n’ai jamais entendu parler de ce problème.
Jamais entendu parler non plus. Pourtant je traîne pas mal sur les forums où ca parle des hybrides et où ils ne sont pas tendres avec Toyota.
Faut sortir le ROFLCopter à ce niveau.
Rien que cette expression prouve que tu n’as jamais conduit correctement une HSD. Voire jamais conduit tout court et que tu t’es juste limité aux journaleux auto (qui ne jurent que par le groupe VAG et par les passages de vitesse… Au point que Toyota et Honda ont ajouté sur certains modèles des pseudo-rapports virtuels simulés juste pour leur faire plaisir).
Tu as parfaitement le droit de ne pas aimer Toyota, ou leurs véhicules (surtout le HSD, qui est assez clivant : soit on adore, soit on déteste). Mais ca ne t’autorise pas à être un hateboy parfaitement abruti qui raconte n’importe quoi non plus.
#26
En gros, rouler “normalement” c’est à mon sens un peu comme la vitesse à laquelle on marche ou cours: Au dessus de ses pompes, on n’est pas à l’aise. En dessous, on n’est pas forcément mieux et c’est là qu’on se tords connement une patte.
La marche au pas, c’est chiant et un long entraînement. Demandes aux militaires!
#27
3 semaines de loc sur l’ile de la Réunion… et mon pire souvenir automobile, de très loin. Pourtant j’ai eu un job qui m’a fait rouler 3 ans avec énormément de modèles de constructeurs/gammes (à force de louer tous les jours, on est régulièrement surclassé) différents. Chaque modèle, malgré ses faiblesses, avait un point fort voir agréable. Mais la Prius, franchement, c’est zéro pointé.
Pour le reste, je dis ce que je pense et c’est pas la peine de tomber dans l’insulte pour un type de voiture que tu reconnais du bout des lèvres comme “clivant”. Je maintiens pour ma part qu’il ne faut pas aimer conduire pour acheter cela et que si la première qualité d’une voiture, ne pas vous emmerder, a pu jouer pour Toyota dans le passé ce n’est plus si évident.
#28
C’est assez courant en effet, au delà du N+1 (manager technique, disons)… Sauf qu’en cas de coup dur, son filtre ne fonctionne plus et les huiles arrivent en direct. Récemment, une merde à presque 18h alors que j’allais partir: “Faut que tu reste un peu analyser cela, c’est important”… J’ai dit trop tard, je rentre chez moi: Avec 2.8% (1⁄3 de l’inflation) les horaires élastiques c’est fini, faut pas vivre dans le passé!