Backblaze : les taux de panne de 3 144 SSD, attention aux intervalles de confiance

Backblaze : les taux de panne de 3 144 SSD, attention aux intervalles de confiance

Les stats, on peut leur faire dire ce qu’on veut (ou presque)

Avatar de l'auteur

Sébastien Gavois

Publié dansHardware

02/10/2023
11
Backblaze : les taux de panne de 3 144 SSD, attention aux intervalles de confiance

Backblaze a mis en ligne son bilan sur les pannes de plus de 3 000 SSD sur le premier semestre de l’année. Dell tire son épingle du jeu, Seagate fait parler de lui avec un taux dépassant les 800 %. C’est l’occasion de rappeler, comme le fait très bien la société, l’importance de la taille de l’échantillon et de l’intervalle de confiance sur les statistiques avant de tirer des conclusions hâtives. 

Cela fait des années que l’hébergeur Backblaze propose des statistiques sur les milliers de disques durs de ses datacenters. Depuis quelque temps, il en propose également sur les SSD. Des indicateurs intéressants, car ils se basent généralement sur des centaines d’unités en fonctionnement 24/7. 

Les SSD sont utilisés comme périphérique de boot pour les serveurs, mais pas uniquement : « Ils stockent aussi les journaux et les fichiers temporaires produits par le serveur de stockage. Chaque jour, un lecteur de démarrage lit, écrit et supprime des fichiers en fonction de l'activité du serveur de stockage lui-même ». Fin 2022, 2 906 SSD étaient utilisés, contre 3 036 fin mars 2023 et 3 144 à la fin du second trimestre de l’année.

C’est quoi un AFR ?

Commençons par rappeler le calcul maison de Backblaze. Il prend en compte la durée de fonctionnement des SSD sur chaque période et parle d’un « taux de panne annualisé » ou AFR (Annualized Failure Rate). Cette manière de faire se veut plus « juste » qu'un simple pourcentage sur le nombre de pannes. L'AFR (en pourcentage) se calcule via la formule suivante : 100 * (nombre de pannes / (jours cumulés de fonctionnement / 366)).

Un exemple : si 100 SSD ont fonctionné pendant 100 jours, cela donne 10 000 Drive Days (100 SSD x 100 jours). De même, 100 SSD en service durant 50 jours et 100 autres sur 200 jours (tous de la même série) donneront un Drive Days de 25 000 (5 000 pour les 100 durant 50 jours + 20 000 pour les 100 durant 200 jours). Dans tous les cas, plus le pourcentage est faible, plus la fiabilité est importante.

Cette méthode a aussi des limites, comme nous allons le voir avec un SSD Seagate qui atteint… 830 % d’AFR au premier trimestre, puis 0 % au second.

Seagate explose les compteurs à 830 %, mais est-ce significatif ?

L’explication est simple : l’échantillon n’est pas suffisamment grand pour être représentatif, une problématique très importante lorsque l’on parle de statistiques, mais qui est malheureusement trop souvent passée sous silence. Des fois, elle est simplement « oubliée » ou mal comprise, d’autres fois, elle sert à faire du buzz.

Sur les trois premiers mois de l’année, deux SSDSCKKB240GZR Seagate de 250 Go étaient en service et l’un d’entre eux a rendu l’âme « peu de temps après son installation », ce qui explique l’explosion de l’AFR au premier trimestre. Sur le second trimestre, le SSD survivant a fonctionné sans problème, le taux de panne sur trois mois est donc à 0 %. Facile alors d’afficher que Seagate est à un taux de panne de 830 %, mais cela ne veut en fait absolument rien dire !

Dans cette situation, quel est le « bon » taux AFR se demande Backblaze ? Réponse évidente : « ni l’un ni l’autre », la vérité se trouve ailleurs : « Nous n’avons tout simplement pas suffisamment de données pour obtenir des résultats exploitables », explique à juste titre la société. Pour une valeur « raisonnable », il faudrait au moins 100 SSD d’une même référence avec 10 000 Drive Days par trimestre : on en est loin. Bref, un SSD est tombé en panne rapidement. Cela peut arriver, sans que l’on tire des conclusions sur toute cette série.

Backblaze S1 2023Backblaze S1 2023

125 % pour Western Digital… mais avec une inquiétude légitime cette fois

Autre score élevé : 125 % d’AFR pour le Western Digital Blue SA510 sur le premier trimestre, mais là encore pas de quoi en tirer la moindre conclusion dans un premier temps puisque quatre disques seulement étaient en service avec une panne.

Mais la situation devient plus préoccupante au deuxième trimestre : quatre SSD sont tombés en panne, alors qu’ils étaient près de 70 en service. Sur six mois, 5 SSD ont ainsi rendu l’âme. La situation mérite d’être suivi de près.

Les autres SSD sont à moins de 5 %, dont une bonne partie à 0 %, signifiant qu’aucune panne n’a été identifiée durant les périodes.

Les évolutions au fil des années

Sur la première moitié de l’année, l’AFR était de 0,96 % sur les trois premiers mois et 1,05 % sur les trois suivants. Après une tendance à la baisse sur l’année 2022, 2023 repart légèrement à la hausse, mais de manière moins importante qu’en 2021 ou le taux avait bondi de 0,58 %  à 1,51 % et 1,72 %. C’était alors à cause d’un modèle bien précis qui a depuis été retiré des serveurs. « Il arrive de temps en temps qu’un modèle de disque ne soit pas compatible avec notre environnement, nous limitons, voire supprimons, alors ce lecteur de notre système », explique Backblaze.

Autre graphique intéressant : la courbe des pannes en fonction de l’âge des SSD. Comme avec les disques durs, elle prend la forme d’une « baignoire ». Les pannes arrivent majoritairement dans les premiers mois, puis la situation se tasse jusqu’à deux ans de fonctionnement, le nombre de pannes remonte ensuite en flèche.

Backblaze S1 2023Backblaze S1 2023

Les premiers seront les derniers, et vice-versa

Les statistiques de Backblaze ont un avantage certain : elles s’inscrivent dans la durée, permettant de suivre des références et des fabricants sur plusieurs années. L’hébergeur propose des AFR par fabricants avec deux temporalités : récent (sur les 60 derniers jours) et la durée de vie complète des SSD.

Sur les 60 derniers jours, Western Digital arrive largement en tête, mais ne tient pas bien dans la durée avec l’AFR « lifetime » le plus élevé des quatre constructeurs de ce comparatif. Chez Micron c’est le contraire : un mauvais score sur les 60 derniers jours, mais celui avec le plus faible taux sur la durée ; ce qui pousse d’ailleurs Backblaze à enquêter sur les SSD Micron.

Seagate et Crucial sont dans le milieu des tableaux.

Backblaze S1 2023

L‘AFR entre 2018 et 2023, avec les intervalles de confiance

Pour finir, Backblaze propose un tableau des taux de pannes AFR « lifetime », avec des données comprises entre octobre 2018 et juin 2023. Détail appréciable, l’intervalle de confiance (à 95 %) est précisé ! Cela permet de se rendre compte si la statistique est fiable ou non. 

Le SSD Seagate de 250 Go est à 274.44 %, mais avec un intervalle de confiance variant entre 0 et plus de 1 000 %, autant dire que l’on ne peut rien en tirer.  Cela signifie en effet qu’il y a 95 % de chance que la valeur AFR réelle soit comprise entre 0 et 1 000 %… on a vu plus précis. C’est l’intérêt de prendre en compte tous les facteurs statistiques, on se rend compte si une valeur est significative. Là ce n’est pas (du tout) le cas.  

Backblaze S1 2023

Le SSD WD Blue évoqué précédemment est aussi avec un taux AFR très élevé de près de 40 %. Là encore, l’intervalle confiance varie beaucoup – entre 10 et 100 %, car il n’y a que quelques dizaines de SSD sur la période – mais bien moins qu’avec Seagate. Néanmoins, avec un minimum de 10 %, cela confirme les craintes évoquées auparavant et l’importance de surveiller de près cette série,

Le Seagate de 2 To est à 6,59 %, pour un intervalle de confiance de 0,2 à 36.7 %. Ce dernier est élevé, car le Drive Days est encore faible avec un peu plus de 5 500 pour seulement 4 SSD en marche, avec une panne.

Dell tire son épingle du jeu 

En ne prenant que les modèles avec au moins 100 SSD et 10 000 Drive Days, il ne reste plus que six références, et les taux AFR sont tous à moins de 2 %. Western Digital WDS250G2B0A est à 1.88 % et le Crucial CT250MX500SSD1 à 1,60 %, mais on voit que la taille de l’échantillon permet d’avoir un intervalle de confiance plus restreint que précédemment (respectivement 8,2 % et 3,3 %). 

Signalons la bonne performance des Dell de 500 Go avec un taux à 0 % pour un Drive Days de plus de 300 000, pour un intervalle de confiance de moins de 0,5 %, qui est le plus faible de l’ensemble des SSD de ce rapport. 

Backblaze S1 2023
11
Avatar de l'auteur

Écrit par Sébastien Gavois

Tiens, en parlant de ça :

#Flock a sa propre vision de l’inclusion

Retour à l’envoyeur

13:39 Flock 15
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

On est déjà à la V2 de Next ?

11:55 24
Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Me voilà à poil sur Internet

17:18 Next 16

Sommaire de l'article

Introduction

C’est quoi un AFR ?

Seagate explose les compteurs à 830 %, mais est-ce significatif ?

125 % pour Western Digital… mais avec une inquiétude légitime cette fois

Les évolutions au fil des années

Les premiers seront les derniers, et vice-versa

L‘AFR entre 2018 et 2023, avec les intervalles de confiance

Dell tire son épingle du jeu 

#Flock a sa propre vision de l’inclusion

Flock 15
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

24
Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Next 16
Logo de StreetPress

Pourquoi le site du média StreetPress a été momentanément inaccessible

Droit 15
Amazon re:Invent

re:Invent 2023 : Amazon lance son assistant Q et plusieurs services IA, dont la génération d’images

IA 10
Un œil symbolisant l'Union européenne, et les dissensions et problèmes afférents

Le Conseil de l’UE tire un bilan du RGPD, les États membres réclament des « outils pratiques »

Droit 4

19 associations européennes de consommateurs portent plainte contre Meta

DroitSocials 15

#LeBrief : Ariane 6 l’été prochain, Nextcloud rachète Roundcube, désinformation via la pub

Chiffre et formules mathématiques sur un tableau

CVSS 4.0 : dur, dur, d’être un expert !

Sécu 13
Une tête de fusée siglée Starlink.

Starlink accessible à Gaza sous contrôle de l’administration israélienne

Web 34
Fibre optique

G-PON, XGS-PON et 50G-PON : jusqu’à 50 Gb/s en fibre optique

HardWeb 52
Photo d'un immeuble troué de part en part

Règlement sur la cyber-résilience : les instances européennes en passe de conclure un accord

DroitSécu 10
lexique IA parodie

AGI, GPAI, modèles de fondation… de quoi on parle ?

IA 10

#LeBrief : logiciels libres scientifiques, fermeture de compte Google, « fabriquer » des femmes pour l’inclusion

livre dématérialisé

Des chercheurs ont élaboré une technique d’extraction des données d’entrainement de ChatGPT

IAScience 3
Un chien avec des lunettes apprend sur une tablette

Devenir expert en sécurité informatique en 3 clics

Sécu 11
Logo ownCloud

ownCloud : faille béante dans les déploiements conteneurisés utilisant graphapi

Sécu 16
Le SoC Graviton4 d’Amazon AWS posé sur une table

Amazon re:invent : SoC Graviton4 (Arm), instance R8g et Trainium2 pour l’IA

Hard 12
Logo Comcybergend

Guéguerre des polices dans le cyber (OFAC et ComCyberMi)

Sécu 10

#LeBrief : faille 0-day dans Chrome, smartphones à Hong Kong, 25 ans de la Dreamcast

Mur d’OVHcloud à Roubaix, avec le logo OVHcloud

OVHcloud Summit 2023 : SecNumCloud, IA et Local Zones

HardWeb 2
algorithmes de la CAF

Transparence, discriminations : les questions soulevées par l’algorithme de la CAF

IASociété 62

Plainte contre l’alternative paiement ou publicité comportementale de Meta

DroitIA 38
Nuage (pour le cloud) avec de la foudre

Économie de la donnée et services de cloud : l’Arcep renforce ses troupes

DroitWeb 0
De vieux ciseaux posés sur une surface en bois

Plus de 60 % des demandes de suppression reçues par Google émanent de Russie

Société 7
Une vieille boussole posée sur un plan en bois

La Commission européenne et Google proposent deux bases de données de fact-checks

DroitWeb 3

#LeBrief : des fichiers Google Drive disparaissent, FreeBSD 14, caméras camouflées, OnePlus 12

Le poing Dev – round 6

Next 151

Produits dangereux sur le web : nouvelles obligations en vue pour les marketplaces

Droit 9
consommation de l'ia

Usages et frugalité : quelle place pour les IA dans la société de demain ?

IA 12

La NASA établit une liaison laser à 16 millions de km, les essais continuent

Science 17
Concept de CPU

Semi-conducteurs : un important accord entre l’Europe et l’Inde

Hard 7

#LeBrief : PS5 Slim en France, Valeo porte plainte contre NVIDIA, pertes publicitaires X/Twitter

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Commentaires (11)


patos Abonné
Il y a 2 mois

Oué enfin, en disant ça, ils oublient ce qu’est une carte BOSS Dell: une carte RAID matériel pour 2 SSDs M.2 !!


gg40 Abonné
Il y a 2 mois

Merci de continuer régulièrement cette actu de fiabilité des disk.
Très instructif.


AncalagonTotof Abonné
Il y a 2 mois

Intéressant de voir plus de data sur l’usage des SSD.



Sur le plan perso, je la ressors à chaque fois : on a tous nos séries maudites.



Ici, 10 à 15 ans d’utilisation de Seagate parce que c’est moins cher.
Résultat, plein de presses-papiers dont les infos S.M.A.R.T. on très souvent laissé entrevoir cette issue fatale ou tellement dégradée que je n’osais plus utiliser le disque.
Jusqu’à des Ironwolf 10 To qui m’ont poussé à tout changer dans une bécane : CPU/MoBo/RAM/GPU/Alim/Boîter/Sans boîtier/câbles (SATA, alim, etc). Tout tout tout. Toujours des crashs inexplicables.
Jusqu’à ce que je les remplace par des WD Gold : depuis, tout fonctionne nickel, zéro défaut, zéro indicateurs S.M.A.R.T. qui grimpe régulièrement.



Après, y’a 20 ans, j’ai un pote qui dit qu’il n’a jamais eu de pépin avec les 75GXP et 60GXP de IBM …


Arona Abonné
Il y a 2 mois

J’ai eu un 60GXP, il est mort… en tombant d’une table…


Salamandar Abonné
Il y a 2 mois

Attention erreur dans l’article !




Les pannes arrivent majoritairement dans la première année, puis la situation se tasse jusqu’à huit ans de fonctionnement. Le nombre de pannes remonte alors en flèche.




Le graphique affiche des “quarters” en abscisse, pas des années.


Alphonse_2 Abonné
Il y a 2 mois

Salamandar a dit:


Attention erreur dans l’article !



Le graphique affiche des “quarters” en abscisse, pas des années.




De 2018 à 2023. Ce seraient des trimestres ?


Salamandar Abonné
Il y a 2 mois

Quarter = quart d’année = trimestre en effet 😊


ashlol Abonné
Il y a 2 mois

j’ai encore un OCZ vertex3 qui tourne encore nickel il est en disque primaire avec windows dessus et il est normalement allumé au moins une fois par jour



concernant les data c’est dommage que backblaze n’ai pas de ssd samsung




patos a dit:


Oué enfin, en disant ça, ils oublient ce qu’est une carte BOSS Dell: une carte RAID matériel pour 2 SSDs M.2 !!




c’est effectivement une carte raid1 mais il n’empêche que si je comprends bien leur data aucun disque n’a fait défaut




Alphonse_2 a dit:


De 2018 à 2023. Ce seraient des trimestres ?




oui trimestre ce dis quarter en anglais mais il y a quand même un truc bizarre car il n’y a que 10 trimestres d’affiché alors que de Q4 2018 à Q2 2023 ça fait 19 trimestres


florentc Abonné
Il y a 2 mois

« Q4 2018 à Q2 2023 » est la période étudiée, mais l’abscisse représente les trimestres de vie des SSD (tous n’ont pas été mis en service au Q4 2018).


Alphonse_2 Abonné
Il y a 2 mois

Il faut exclure les trimestres fériés.


xillibit Abonné
Il y a 2 mois

patos a dit:


Oué enfin, en disant ça, ils oublient ce qu’est une carte BOSS Dell: une carte RAID matériel pour 2 SSDs M.2 !!




Normal c’est les BOSS