Backblaze : les taux de panne de 3 144 SSD, attention aux intervalles de confiance
Les stats, on peut leur faire dire ce qu’on veut (ou presque)
Le 02 octobre 2023 à 10h21
8 min
Hardware
Hardware
Backblaze a mis en ligne son bilan sur les pannes de plus de 3 000 SSD sur le premier semestre de l’année. Dell tire son épingle du jeu, Seagate fait parler de lui avec un taux dépassant les 800 %. C’est l’occasion de rappeler, comme le fait très bien la société, l’importance de la taille de l’échantillon et de l’intervalle de confiance sur les statistiques avant de tirer des conclusions hâtives.
Cela fait des années que l’hébergeur Backblaze propose des statistiques sur les milliers de disques durs de ses datacenters. Depuis quelque temps, il en propose également sur les SSD. Des indicateurs intéressants, car ils se basent généralement sur des centaines d’unités en fonctionnement 24/7.
Les SSD sont utilisés comme périphérique de boot pour les serveurs, mais pas uniquement : « Ils stockent aussi les journaux et les fichiers temporaires produits par le serveur de stockage. Chaque jour, un lecteur de démarrage lit, écrit et supprime des fichiers en fonction de l'activité du serveur de stockage lui-même ». Fin 2022, 2 906 SSD étaient utilisés, contre 3 036 fin mars 2023 et 3 144 à la fin du second trimestre de l’année.
C’est quoi un AFR ?
Commençons par rappeler le calcul maison de Backblaze. Il prend en compte la durée de fonctionnement des SSD sur chaque période et parle d’un « taux de panne annualisé » ou AFR (Annualized Failure Rate). Cette manière de faire se veut plus « juste » qu'un simple pourcentage sur le nombre de pannes. L'AFR (en pourcentage) se calcule via la formule suivante : 100 * (nombre de pannes / (jours cumulés de fonctionnement / 366)).
Un exemple : si 100 SSD ont fonctionné pendant 100 jours, cela donne 10 000 Drive Days (100 SSD x 100 jours). De même, 100 SSD en service durant 50 jours et 100 autres sur 200 jours (tous de la même série) donneront un Drive Days de 25 000 (5 000 pour les 100 durant 50 jours + 20 000 pour les 100 durant 200 jours). Dans tous les cas, plus le pourcentage est faible, plus la fiabilité est importante.
Cette méthode a aussi des limites, comme nous allons le voir avec un SSD Seagate qui atteint… 830 % d’AFR au premier trimestre, puis 0 % au second.
Seagate explose les compteurs à 830 %, mais est-ce significatif ?
L’explication est simple : l’échantillon n’est pas suffisamment grand pour être représentatif, une problématique très importante lorsque l’on parle de statistiques, mais qui est malheureusement trop souvent passée sous silence. Des fois, elle est simplement « oubliée » ou mal comprise, d’autres fois, elle sert à faire du buzz.
Sur les trois premiers mois de l’année, deux SSDSCKKB240GZR Seagate de 250 Go étaient en service et l’un d’entre eux a rendu l’âme « peu de temps après son installation », ce qui explique l’explosion de l’AFR au premier trimestre. Sur le second trimestre, le SSD survivant a fonctionné sans problème, le taux de panne sur trois mois est donc à 0 %. Facile alors d’afficher que Seagate est à un taux de panne de 830 %, mais cela ne veut en fait absolument rien dire !
Dans cette situation, quel est le « bon » taux AFR se demande Backblaze ? Réponse évidente : « ni l’un ni l’autre », la vérité se trouve ailleurs : « Nous n’avons tout simplement pas suffisamment de données pour obtenir des résultats exploitables », explique à juste titre la société. Pour une valeur « raisonnable », il faudrait au moins 100 SSD d’une même référence avec 10 000 Drive Days par trimestre : on en est loin. Bref, un SSD est tombé en panne rapidement. Cela peut arriver, sans que l’on tire des conclusions sur toute cette série.
125 % pour Western Digital… mais avec une inquiétude légitime cette fois
Autre score élevé : 125 % d’AFR pour le Western Digital Blue SA510 sur le premier trimestre, mais là encore pas de quoi en tirer la moindre conclusion dans un premier temps puisque quatre disques seulement étaient en service avec une panne.
Mais la situation devient plus préoccupante au deuxième trimestre : quatre SSD sont tombés en panne, alors qu’ils étaient près de 70 en service. Sur six mois, 5 SSD ont ainsi rendu l’âme. La situation mérite d’être suivi de près.
Les autres SSD sont à moins de 5 %, dont une bonne partie à 0 %, signifiant qu’aucune panne n’a été identifiée durant les périodes.
Les évolutions au fil des années
Sur la première moitié de l’année, l’AFR était de 0,96 % sur les trois premiers mois et 1,05 % sur les trois suivants. Après une tendance à la baisse sur l’année 2022, 2023 repart légèrement à la hausse, mais de manière moins importante qu’en 2021 ou le taux avait bondi de 0,58 % à 1,51 % et 1,72 %. C’était alors à cause d’un modèle bien précis qui a depuis été retiré des serveurs. « Il arrive de temps en temps qu’un modèle de disque ne soit pas compatible avec notre environnement, nous limitons, voire supprimons, alors ce lecteur de notre système », explique Backblaze.
Autre graphique intéressant : la courbe des pannes en fonction de l’âge des SSD. Comme avec les disques durs, elle prend la forme d’une « baignoire ». Les pannes arrivent majoritairement dans les premiers mois, puis la situation se tasse jusqu’à deux ans de fonctionnement, le nombre de pannes remonte ensuite en flèche.
Les premiers seront les derniers, et vice-versa
Les statistiques de Backblaze ont un avantage certain : elles s’inscrivent dans la durée, permettant de suivre des références et des fabricants sur plusieurs années. L’hébergeur propose des AFR par fabricants avec deux temporalités : récent (sur les 60 derniers jours) et la durée de vie complète des SSD.
Sur les 60 derniers jours, Western Digital arrive largement en tête, mais ne tient pas bien dans la durée avec l’AFR « lifetime » le plus élevé des quatre constructeurs de ce comparatif. Chez Micron c’est le contraire : un mauvais score sur les 60 derniers jours, mais celui avec le plus faible taux sur la durée ; ce qui pousse d’ailleurs Backblaze à enquêter sur les SSD Micron.
Seagate et Crucial sont dans le milieu des tableaux.
L‘AFR entre 2018 et 2023, avec les intervalles de confiance
Pour finir, Backblaze propose un tableau des taux de pannes AFR « lifetime », avec des données comprises entre octobre 2018 et juin 2023. Détail appréciable, l’intervalle de confiance (à 95 %) est précisé ! Cela permet de se rendre compte si la statistique est fiable ou non.
Le SSD Seagate de 250 Go est à 274.44 %, mais avec un intervalle de confiance variant entre 0 et plus de 1 000 %, autant dire que l’on ne peut rien en tirer. Cela signifie en effet qu’il y a 95 % de chance que la valeur AFR réelle soit comprise entre 0 et 1 000 %… on a vu plus précis. C’est l’intérêt de prendre en compte tous les facteurs statistiques, on se rend compte si une valeur est significative. Là ce n’est pas (du tout) le cas.
Le SSD WD Blue évoqué précédemment est aussi avec un taux AFR très élevé de près de 40 %. Là encore, l’intervalle confiance varie beaucoup – entre 10 et 100 %, car il n’y a que quelques dizaines de SSD sur la période – mais bien moins qu’avec Seagate. Néanmoins, avec un minimum de 10 %, cela confirme les craintes évoquées auparavant et l’importance de surveiller de près cette série,
Le Seagate de 2 To est à 6,59 %, pour un intervalle de confiance de 0,2 à 36.7 %. Ce dernier est élevé, car le Drive Days est encore faible avec un peu plus de 5 500 pour seulement 4 SSD en marche, avec une panne.
Dell tire son épingle du jeu
En ne prenant que les modèles avec au moins 100 SSD et 10 000 Drive Days, il ne reste plus que six références, et les taux AFR sont tous à moins de 2 %. Western Digital WDS250G2B0A est à 1.88 % et le Crucial CT250MX500SSD1 à 1,60 %, mais on voit que la taille de l’échantillon permet d’avoir un intervalle de confiance plus restreint que précédemment (respectivement 8,2 % et 3,3 %).
Signalons la bonne performance des Dell de 500 Go avec un taux à 0 % pour un Drive Days de plus de 300 000, pour un intervalle de confiance de moins de 0,5 %, qui est le plus faible de l’ensemble des SSD de ce rapport.
Le 02 octobre 2023 à 10h21
Backblaze : les taux de panne de 3 144 SSD, attention aux intervalles de confiance
-
C’est quoi un AFR ?
-
Seagate explose les compteurs à 830 %, mais est-ce significatif ?
-
125 % pour Western Digital… mais avec une inquiétude légitime cette fois
-
Les évolutions au fil des années
-
Les premiers seront les derniers, et vice-versa
-
L‘AFR entre 2018 et 2023, avec les intervalles de confiance
-
Dell tire son épingle du jeu
Commentaires (11)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 02/10/2023 à 11h04
#1
Oué enfin, en disant ça, ils oublient ce qu’est une carte BOSS Dell: une carte RAID matériel pour 2 SSDs M.2 !!
Le 02/10/2023 à 11h29
#2
Merci de continuer régulièrement cette actu de fiabilité des disk.
Très instructif.
Le 02/10/2023 à 12h10
#3
Intéressant de voir plus de data sur l’usage des SSD.
Sur le plan perso, je la ressors à chaque fois : on a tous nos séries maudites.
Ici, 10 à 15 ans d’utilisation de Seagate parce que c’est moins cher.
Résultat, plein de presses-papiers dont les infos S.M.A.R.T. on très souvent laissé entrevoir cette issue fatale ou tellement dégradée que je n’osais plus utiliser le disque.
Jusqu’à des Ironwolf 10 To qui m’ont poussé à tout changer dans une bécane : CPU/MoBo/RAM/GPU/Alim/Boîter/Sans boîtier/câbles (SATA, alim, etc). Tout tout tout. Toujours des crashs inexplicables.
Jusqu’à ce que je les remplace par des WD Gold : depuis, tout fonctionne nickel, zéro défaut, zéro indicateurs S.M.A.R.T. qui grimpe régulièrement.
Après, y’a 20 ans, j’ai un pote qui dit qu’il n’a jamais eu de pépin avec les 75GXP et 60GXP de IBM …
Le 02/10/2023 à 12h20
#4
J’ai eu un 60GXP, il est mort… en tombant d’une table…
Le 02/10/2023 à 12h23
#5
Attention erreur dans l’article !
Le graphique affiche des “quarters” en abscisse, pas des années.
Le 02/10/2023 à 16h28
#6
De 2018 à 2023. Ce seraient des trimestres ?
Le 05/10/2023 à 07h41
#6.1
Quarter = quart d’année = trimestre en effet 😊
Le 02/10/2023 à 17h38
#7
j’ai encore un OCZ vertex3 qui tourne encore nickel il est en disque primaire avec windows dessus et il est normalement allumé au moins une fois par jour
concernant les data c’est dommage que backblaze n’ai pas de ssd samsung
c’est effectivement une carte raid1 mais il n’empêche que si je comprends bien leur data aucun disque n’a fait défaut
oui trimestre ce dis quarter en anglais mais il y a quand même un truc bizarre car il n’y a que 10 trimestres d’affiché alors que de Q4 2018 à Q2 2023 ça fait 19 trimestres
Le 04/10/2023 à 14h08
#7.1
« Q4 2018 à Q2 2023 » est la période étudiée, mais l’abscisse représente les trimestres de vie des SSD (tous n’ont pas été mis en service au Q4 2018).
Le 02/10/2023 à 19h48
#8
Il faut exclure les trimestres fériés.
Le 04/10/2023 à 14h23
#9
Normal c’est les BOSS