Backblaze analyse les pannes de 122 658 disques durs, Seagate se fait « remarquer »

Mais s’en serait bien passé…

Le 13 février 2020 à 13h36

4 min

Hardware

Le service de sauvegarde Backblaze vient de publier sa nouvelle analyse des pannes de HDD. En 2019, deux séries ont obtenu des taux de panne annualisés plus importants que la moyenne : les Seagate ST4000DM000 de 4 To et ST12000NM007 de 12 To. Sur des modèles de 16 To, utilisés depuis peu, les retours sont bons pour le moment.

C’est une habitude, Backblaze publie régulièrement des statistiques sur l’état de ses disques durs. La société propose pour rappel des offres de sauvegarde pour les particuliers et revendique 900 Po de données… soit un certains nombre de HDD. Fin 2019, près de 125 000 étaient en fonctionnement dans ses serveurs

2 229 sont utilisés pour le boot des systèmes, 122 658 pour le stockage des données. En éliminant, ceux utilisés pour des tests ou dont le nombre et la durée de fonctionnement ne sont pas suffisants pour en tirer des statistiques jugées intéressantes, il reste 122 507 modèles exploités dans l'analyse produite.

Ils proviennent de trois constructeurs : HGST, Seagate (près de 90 000 HDD) ainsi que Toshiba. L’hébergeur précise que, en 2019, « il n'y avait pas de disques durs Western Digital dans son datacenter », mais ajoute qu’il ajustera son approvisionnement « au fur et à mesure que WD renommera les nouveaux HDD HGST de grande capacité ».

Chez HGST et Toshiba tout va bien, alors que chez Seagate…

Avant d’entrer dans le vif du sujet, une précision importante : dans ses tableaux, Backblaze parle d’un le « taux de panne annualisé ». Il est calculé en fonction du nombre de jours de fonctionnement cumulés pour les disques durs d’une même famille et du nombre de pannes, via la formule suivante :

(100*pannes)/(heures de fonctionnement/24/365)

Chez HGST, rien de spécial à signaler : tous les disques durs (4 à 12 To) ont un taux inférieur à 1 %. Même chose chez Toshiba, qui obtient même 0 % avec son MD04ABA400V de 4 To, signifiant donc que sur la période, aucun des 99 disques durs en service (pour 39 788 jours de fonctionnement) n’est tombé en panne.

Chez Seagate par contre, la situation est plus compliquée : une seule série est à moins de 1 % – le ST600DX00 de 6 To – alors que les autres oscillent entre 1,14 et 3,32 %. Les ST4000DM00 de 4 To et ST1200NM007 de 12 To ne se distinguent pas de la meilleure des manières avec respectivement 2 et 3,32 %. Les autres sont entre 1,14 et 1,57 %.

Sur 19 211 disques durs Seagate de 4 To en service, 402 sont tombés en pannes, contre 1 156 modèles de 12 To sur un parc de 37 004. Ces derniers avaient déjà été identifiés comme problématiques par Backblaze sur de précédents rapports. Il a ainsi annoncé la mise en place d’une migration fin janvier.

Le taux de panne annualisé globalement en hausse en 2019

De manière générale, le taux de panne annualisé moyen de 2019 est en augmentation par rapport aux années précédentes : 1,89 % contre respectivement 1,25 % en 2018 et 1,77 % en 2017. La société y voit deux raisons : une hausse globale de ce taux pour 75 % des familles de disques durs, mais aussi l’influence du mauvais score des 12 To de Seagate qui représentent tout de même un quart de l’ensemble des HDD en service.

Enfin, Backblaze propose une analyse des disques durs sur une période plus longue, remontant jusqu’à début 2013 suivant la date de mise en service des disques durs. Le taux de panne annualisé moyen de la plupart des HDD est sous 1 %... sauf chez Seagate encore une fois.

Les modèles 4 et 12 To se font remarquer avec respectivement 2,67 et 2,57 %.

Évolution des taux entre 2017, 2018 et 2019 / Les taux en remontant jusqu’à 2013

De bons résultats provisoires sur les 16 To

Backblaze propose de jeter un œil aux nouveaux 16 To de Seagate qu’il utilise dans son datacenter. Le nombre et durée d’utilisation – 40 HDD pour 1 440 journées d’utilisation combinées – ne sont pas suffisants pour en tirer des statistiques avec une fiabilité suffisante, mais la bonne nouvelle c’est qu’aucune panne n’est pour le moment arrivée. S’ils continuent sur cette voie, les 16 To pourraient être utilisés pour remplacer les 12 To dont le taux de panne est trop important.

Des tests ont également débuté en ce début d’année sur des Toshiba de 16 To, mais il est encore trop tôt pour donner le moindre chiffre affirme l’entreprise.

Commentaires (26)

SartMatt

Le 13/02/2020 à 13h57

Globalement, c’est pas fameux pour Seagate, même en dehors des modèles 4 et 12 To… Les autres modèles sont quasiment tous à plus de 1%, contre aucun chez les autres constructeurs.

Philou66

Le 13/02/2020 à 14h19

N’y a-t-il pas un statisticien dans la salle, pour calculer pour chaque ligne, a partir du nombre de disques et d’heures de fonctionnement la marge d’erreur sur le pourcentage résultant ?
Car c’est pas la meme chose d’avoir 100 disques HS sur un parc de 1000, ou 1 sur un parc de 10 !

fry

Le 13/02/2020 à 14h29

pour cette année en effet, mais l’an dernier a eu quelques ratés chez toshiba, wdc et hgst (bon sur 50 unités pour le dernier)
suffit de quelques mauvais lots et ça plombe toutes les stats

c’est super intéressant comme stats je trouve, mais on peut pas se servir que de ça pour choisir quoi acheter (tout au plus on va éviter les séries à problème) tellement ça varie d’un modèle à l’autre chez un même constructeur, y’a qu’a voir l’explosion (doublement) du taux entre 2018 et 2019 pour le 4to de hgst “ble” (qui passe de 14000 à 12 000 unités, ca reste stable de ce coté, c’est moins le cas sur d’autres modèles), même si le taux est faible, il a fortement bougé (idem pour le 8to seagate “nm0086”, mais le taux initial étant déjà plus élevé, c’est encore pire :( d’un autre coté les changements sont vraiment similaires (et les volumes concernés aussi) entre 2017 -> 2018 -> 2019, est-ce que les pb viennent bien des disques du coup ? )

hum, par contre je crois bien que j’ai un 4to “dm000” :s, faudrait que je vérifie si j’ai bien des backups … XD

damaki Abonné

Le 13/02/2020 à 15h25

Philou66 a dit:

N’y a-t-il pas un statisticien dans la salle, pour calculer pour chaque ligne, a partir du nombre de disques et d’heures de fonctionnement la marge d’erreur sur le pourcentage résultant ? Car c’est pas la meme chose d’avoir 100 disques HS sur un parc de 1000, ou 1 sur un parc de 10 !

+1
Les échantillons sont très bas sur beaucoup de leurs stats et même 1000 disques, avec aucune info sur les séries, c’est difficilement exploitable

J’ajouterais que ça fait plusieurs années que je suis ces chiffres, et je trouve qu’il manque une donnée critique : l’âge des disques en heures d’utilisation lors de la première défaillance, et une courbe des défaillances rapportées à l’âge des disques, bref des vraies courbes de durée de vie.
Bref, c’est intéressant, mais pas très utilisable en tant que tel car trop synthétique. Même leurs CSVs sont trop synthétiques, trop aggrégés.

tiret

Le 13/02/2020 à 15h26

À une époque Seagate fabriquait les disques durs les plus fiables, mais ce n’est plus le cas depuis une dizaine d’année hélas.

damaki Abonné

Le 13/02/2020 à 15h32

fry a dit:

hum, par contre je crois bien que j’ai un 4to “dm000” :s, faudrait que je vérifie si j’ai bien des backups … XD

Faut relativiser, comme je dis dans mon autre message, il n’y a pas d’infos sur le nombre d’heures avant panne. Par exemple, j’avais deux des infâmes ST3000DM001, eh bien ils ont quand même tenu 4 ans en continu H24. Ce que ces histoires de pannes de disques m’on appris, c’est à panacher les disques entre marques et/ou modèles pour éviter d’avoir 2 disques qui tombent en panne à intervalle rapproché.

tazvld Abonné

Le 13/02/2020 à 16h19

Philou66 a dit:

N’y a-t-il pas un statisticien dans la salle, pour calculer pour chaque ligne, a partir du nombre de disques et d’heures de fonctionnement la marge d’erreur sur le pourcentage résultant ? Car c’est pas la meme chose d’avoir 100 disques HS sur un parc de 1000, ou 1 sur un parc de 10 !

Je ne suis pas statisticien, mais avec mes quelques connaissances, je pense qu’avec le peu de données disponibles, ça risque d’être difficile d’avoir une valeur un minimum réaliste.
Il manque beaucoup trop de donnée (pour chaque disque, le nombre d’heure avant la panne par exemple) et nécessite alors de faire énormément d’hypothèses qui ne sont pas vrai voir on n’en sait rien du tout.

damaki Abonné

Le 13/02/2020 à 16h54

tiret a dit:

À une époque Seagate fabriquait les disques durs les plus fiables, mais ce n’est plus le cas depuis une dizaine d’année hélas.

La concurrence baisse ; la qualité baisse.

fry

Le 13/02/2020 à 19h20

damaki a dit:

Faut relativiser, comme je dis dans mon autre message, il n’y a pas d’infos sur le nombre d’heures avant panne. Par exemple, j’avais deux des infâmes ST3000DM001, eh bien ils ont quand même tenu 4 ans en continu H24. Ce que ces histoires de pannes de disques m’on appris, c’est à panacher les disques entre marques et/ou modèles pour éviter d’avoir 2 disques qui tombent en panne à intervalle rapproché.

oui bien sur, je ne m’inquiète pas outre mesure et j’avais oublié de le noter dans mon message précédent, mais je trouve aussi qu’il manque l’age des disques et tout ça :)

j’avais été touché par une mauvaise série des 500go de seagate (je voulais faire du raid5 + hot spare, j’ai fait que du raid 5 + “disque volant” dans un boitier usb XD)

au final je crois que j’ai rien perdu comme données

seagate à été nickel niveau garantie, j’ai pu tous les échanger petit à petit sans souci

rikou83700

Le 13/02/2020 à 19h28

En même temps, faut quand même voir que les st4000dm000 sont des disques desktop, et pas des disques prévu pour fonctionner ²⁴⁄₂₄ ⁷⁄₇. Donc faudrait peut être arrêter de taper sur SEAGATE quand t’utilise pas le matos dans les conditions d’utilisation pour lesquelles il est destiné (c’est à dire dans un desktop). Si tu mets ça dans une baie san avec 36 disques à côté, ben le truc il crame. Il y a une série prévue pour ça : ironwolf pro.

rikou83700

Le 13/02/2020 à 19h36

Par contre les 12TB sont des Exos, et la ca la fout un peu plus mal, c’est clair. Après faudrait voir ce que se prenne les disques en terme d’I/O, car je reste persuadé qu’ils doivent être utilisé de manière trop intensive. Donc le taux de panne sans tenir compte de l’intensité de l’utilisation n’est pas informatif à mon sens.

floh Abonné

Le 13/02/2020 à 20h08

En effet, il manque l’âge moyen des disques et le volume moyen de données écrit et lu avant panne.
Ensuite, l’AFR n’est pas représentatif.
Par exemple, depuis quand étaient en fonctionnement les disques de Seagate ayant un taux élevé ? Car en regardant le tableau récapitulatif depuis 2017, peut-on en déduire que les disques avaient 3 ans de fonctionnement (voir plus) ?

ForceRouge Abonné

Le 13/02/2020 à 20h11

Avant même voir le tableau, j’allais dire que HGST et Toshiba sont pour moi les deux marques les plus fiables.

Toshiba, c’est simple, c’est japonais. Les japonais ont la culture du travail bien fait. C’est comme dans les bagnoles, la réputation du service client Toyota est l’un des plus réputé.

fofo9012 Abonné

Le 14/02/2020 à 07h47

rikou83700 a dit:

En même temps, faut quand même voir que les st4000dm000 sont des disques desktop, et pas des disques prévu pour fonctionner ²⁴⁄₂₄ ⁷⁄₇. Donc faudrait peut être arrêter de taper sur SEAGATE quand t’utilise pas le matos dans les conditions d’utilisation pour lesquelles il est destiné (c’est à dire dans un desktop). Si tu mets ça dans une baie san avec 36 disques à côté, ben le truc il crame. Il y a une série prévue pour ça : ironwolf pro.

Bah tous les disques employés par Backblaze sont de simples disques desktop, la qualité est donc belle et bien moindre pour Seagate.
Après effectivement les conditions sont très particulières, les racks de disques sont customs,les disques étant trés serrés et à la verticale : YouTube

damaki Abonné

Le 14/02/2020 à 08h05

rikou83700 a dit:

En même temps, faut quand même voir que les st4000dm000 sont des disques desktop, et pas des disques prévu pour fonctionner ²⁴⁄₂₄ ⁷⁄₇. Donc faudrait peut être arrêter de taper sur SEAGATE quand t’utilise pas le matos dans les conditions d’utilisation pour lesquelles il est destiné (c’est à dire dans un desktop). Si tu mets ça dans une baie san avec 36 disques à côté, ben le truc il crame. Il y a une série prévue pour ça : ironwolf pro.

Redundant Array of Inexpensive Disks. Si t’as des stats claires, ça peut être plus rentable de laisser crever rapidement tes disques que d’acheter des disques style serveur, souvent beaucoup plus cher, si t’as pas besoin d’un gros débit.

Mais sinon, oui, j’en ai déjà causé ailleurs, donc je copie-colle :

Imaginons un disque hypothétique, vendu avec un MTBF de 20 000 heures, soit moins de 3 ans en continu, quand tu le fais fonctionner seul. Si tu le mets dans un serveur en RAID, avec une utilisation régulière tout le long de la journée, donc dans un cas d’utilisation pour lequel il n’a pas été validé, il devrait théoriquement tenir en moyenne moins de 3 ans. Tu peux avoir du bol si pour une série ils ont juste changé la taille du cache et des optims au niveau firmware entre les versions NAS et desktop, mais il peut y avoir des écarts de tolérance à la chauffe, voire de chauffe. Après il y a aussi les histoires de timeout SATA/SAS qui sont des trucs ultra pénibles, mal gérées sur les gammes desktop, qui fait que certains contrôleurs considèrent les disques desktop comme déconnectés par défaut après un certain délai. Il y a aussi certains firmwares de disques desktop qui respectent moins les standard SATA, le classique étant la commande flush qui ne flushe pas les écritures disque.
Malheureusement, il y a des raisons, en grosse partie mauvaises mais des raisons quand même.

Norde

Le 14/02/2020 à 09h19

Philou66 a dit:

N’y a-t-il pas un statisticien dans la salle, pour calculer pour chaque ligne, a partir du nombre de disques et d’heures de fonctionnement la marge d’erreur sur le pourcentage résultant ? Car c’est pas la meme chose d’avoir 100 disques HS sur un parc de 1000, ou 1 sur un parc de 10 !

Malheureusement c’est impossible, il faudrait les résultats bruts pour chaque disque.
Impossible de faire quoi que ce soit avec une moyenne :/

Petit point “culture stat” pour ceux que ça intéresse (wouhou !) :

“Marge d’erreur” = Intervalle de confiance.
C’est un intervalle spéculatif qui encadre une valeur (plutôt la médiane que la moyenne), dans lequel on estime que les valeurs possibles seront comprises dans X% des cas (en général on fixe ce seuil à 95%, mais c’est à adapter selon ses données). Le tout avec un seuil de confiance (souvent 0,05, soit 0,05% de chance d’erreur, ce seuil étant à adapter, à la baisse, selon les données).

Médiane = “milieu” de la population. En gros la médiane c’est la valeur pour laquelle 50% des échantillons sont au dessus et 50% en dessous.
Elle est beaucoup plus représentative des données que la moyenne (la moyenne masque les différences). Ex : je prend 20 personnes, 18 de 1 à 3ans, et 2 > 80ans. La moyenne sera environ de 10ans (ce qui ne représente en rien nos données) alors que la médiane sera aux alentours de 2.
A méditer pour les résultats de sondages de nos chers “grands” médias ^^

tazvld a dit:

Je ne suis pas statisticien, mais avec mes quelques connaissances, je pense qu’avec le peu de données disponibles, ça risque d’être difficile d’avoir une valeur un minimum réaliste. Il manque beaucoup trop de donnée (pour chaque disque, le nombre d’heure avant la panne par exemple) et nécessite alors de faire énormément d’hypothèses qui ne sont pas vrai voir on n’en sait rien du tout.

Tout à fait.
Même si on avait le minimum, à savoir si un disque est tombé en panne oui ou non sur X années, il serait difficile de faire des comparaisons.

Pour que les comparaisons avec d’autres disques soient possibles il faut que les conditions d’utilisation soient les mêmes (ou suffisamment proches, histoire de ne pas comparer des bananes avec des concombres quoi) :
Température d’utilisation, nb démarrage/arrêt, nb de données écrites/lues et surement d’autres mais je ne suis pas spécialiste du stockage en datacenter ^^’

Le nombre d’heure avant la panne n’est pas forcément nécessaire mais permettrait d’avoir une estimation plus précise (durée de vie moyenne en heures au lieu d’années par exemple, ou probabilité de survenue d’une panne après x heures…).

Backblaze doit surement avoir ces données mais réalise la une diffusion simplifié pour le grand public.
Les données brutes doivent avoir un grand intérêt pour les spécialistes du stockage et sont peut être monétisés ?

tazvld Abonné

Le 14/02/2020 à 10h20

Norde a dit:

….

J’avais pensé utiliser la décroissances exponentielle à l’aide du temps de test (surface sous courbe temps d’utilisation=∫(t=0–>temps de test)y) nombre de disque (x_0) et nombre de panne (x_temps de test=x0-nbPanne) pour calculer un notion de probabilité de panne dans l’heure. Ensuite, on pourrait appliquer différentes loi pour représenter la probabilité du taux de pannes en fonction du taux de panne et comparer les courbes pour déterminer si elle sont significativement différentes.

Mais là, le premier calcule est complètement absurde. Tout d’abord il considère que le disque dur ne s’use pas dans le temps, qu’il a autant de chance de tomber en panne s’il est neuf ou s’il a 6ans. Mais surtout, il considère que les disques qui ne sont pas tombé en panne ont tourner durant l’intégralité du temps de test et uniquement durant ce temps là.

Norde

Le 14/02/2020 à 11h14

tazvld a dit:

J’avais pensé utiliser la décroissances exponentielle à l’aide du temps de test (surface sous courbe temps d’utilisation=∫(t=0–>temps de test)y) nombre de disque (x_0) et nombre de panne (x_temps de test=x0-nbPanne) pour calculer un notion de probabilité de panne dans l’heure. Ensuite, on pourrait appliquer différentes loi pour représenter la probabilité du taux de pannes en fonction du taux de panne et comparer les courbes pour déterminer si elle sont significativement différentes.Mais là, le premier calcule est complètement absurde. Tout d’abord il considère que le disque dur ne s’use pas dans le temps, qu’il a autant de chance de tomber en panne s’il est neuf ou s’il a 6ans. Mais surtout, il considère que les disques qui ne sont pas tombé en panne ont tourner durant l’intégralité du temps de test et uniquement durant ce temps là.

Non, la probabilité de panne dans le temps des disques durs ne suit certainement pas une loi de décroissance exponentielle (et heureusement sinon les disques tomberaient en panne surtout en début de vie, ce serait un peu géant… ^^). Ce serait plutôt l’inverse.

Pour le reste le calcul de Blackblaze est très bien. Ce sont juste des données synthétiques, cela permet d’avoir un retour sur le taux moyen de panne par an selon le modèle de disque, rien de plus.

Liam

Le 15/02/2020 à 05h12

D’année en année on voit apparaître le même résultat chez Backblaze : Seagate à la ramasse point de vue fiabilité.

Perso, je n’achète plus que du Toshiba : Seagate me fais peur (d’autant que j’ai eu aussi une mauvaise expérience avec), WD est trop cher, HGST j’en ai rarement vu à la vente.

Wax

Le 16/02/2020 à 10h36

Hmmm,
Je n’ai que des disques Seagate, Ironwolf, testés un par un, avec 3 redondances de 1 et 1 disque de hot spare.
En 8 et 14To.
Toshiba trop petits en capacité.
HGST introuvables.

Charly32

Le 16/02/2020 à 20h07

Philou66 a dit:

N’y a-t-il pas un statisticien dans la salle, pour calculer pour chaque ligne, a partir du nombre de disques et d’heures de fonctionnement la marge d’erreur sur le pourcentage résultant ? Car c’est pas la meme chose d’avoir 100 disques HS sur un parc de 1000, ou 1 sur un parc de 10 !

Emballez, c’est pesé

C’est calculé avec la méthode du Khi², pour un indice de confiance à 95% : il y a 95% de chance que la valeur vraie soit dans l’intervalle donné.
On note que plus la période d’observation est longue et plus le nombre de panne est important, plus l’intervalle est faible (logique).
Le calcul ne s’applique pas si aucune défaillance n’est observée (il existe d’autres méthodes pour ce cas précis).

A noter : le nombre de disques n’est pas directement utile avec cette méthode. Ce qui compte, c’est la durée d’observation. Ainsi observer 10 disques pendant 1h donnera le même résultat que l’observation d’un disque pendant 10h (car la théorie sous-jacente suppose que l’unité est remplacée après panne) . Dans notre cas, cela mène à une sur-estimation du taux de défaillance.

Source 1

Source 2(pdf de l’université d’Angers)

Source 3

Charly32

Le 16/02/2020 à 20h22

Norde a dit:

Malheureusement c’est impossible, il faudrait les résultats bruts pour chaque disque. Impossible de faire quoi que ce soit avec une moyenne :/

Il existe des outils permettant de calculer l’intervalle de confiance du taux de défaillance, cf mon post ci-dessus.

Norde a dit:

Backblaze doit surement avoir ces données mais réalise la une diffusion simplifié pour le grand public. Les données brutes doivent avoir un grand intérêt pour les spécialistes du stockage et sont peut être monétisés ?

Tout est open source, et très complet !

Norde a dit:

Non, la probabilité de panne dans le temps des disques durs ne suit certainement pas une loi de décroissance exponentielle (et heureusement sinon les disques tomberaient en panne surtout en début de vie, ce serait un peu géant… ^^). Ce serait plutôt l’inverse.

On observe les deux phénomènes,à savoir une période de rodage puis une période d’usure. je crois que google avait fait un papier très complet là dessus il y a quelques années (TL;DR : les disques qui ne tombent pas en panne durant les premiers mois d’utilisation ont de grande chance de fonctionner plusieurs années).
Sinon l’exercice de remonter à la probabilité de défaillance au cours du temps en supposant la fréquence indiquée par blackbaze comme constante au cours de la durée de vie du disque reste intéressante.

Liam

Le 18/02/2020 à 00h15

Charly32 a dit:

On observe les deux phénomènes,à savoir une période de rodage puis une période d’usure.

C’est un peu pareil pour tous les appareils, non ? Du moins tous ceux qui ont des pièces mécaniques ? Je sais que cette tendance s’observe aussi beaucoup dans l’électroménager.

Charly32

Le 18/02/2020 à 09h18

Tout à fait. Pour les systèmes purement électroniques, on parle de “courbe en baignoire” : le taux est quasi-constant entre les, périodes de rodage et d’usure.
Les systèmes lecaniques ont une courbe de mortalité plutôt en parabole : la période d’usure commence juste après la période de rodage.
Bien sûr ce ne sont que des tendances, c’est à vérifier pour chaque appareil.

dylem29 Abonné

Le 18/02/2020 à 15h37

J’avais un ST4000DM00 qui est aussi tombé en panne au bout de 1 an.

J’ai un Samsung 1TB qui prend 10 ans cette année.

OlivierJ Abonné

Le 19/02/2020 à 15h36

Norde a dit:

Médiane = “milieu” de la population. En gros la médiane c’est la valeur pour laquelle 50% des échantillons sont au dessus et 50% en dessous. Elle est beaucoup plus représentative des données que la moyenne (la moyenne masque les différences). [..] A méditer pour les résultats de sondages de nos chers “grands” médias ^^

Rien à voir avec les sondages. Les sondages eux présentent une marge d’erreur sur un calcul à partir d’un échantillon et ne calculent pas de moyenne de toutes façons.
La médiane est régulièrement utilisée dans des articles concernant les revenus, et le fameux “seuil de pauvreté” (souvent mal compris), est calculé en fonction du revenu médian.