web-dev-qa-db-fra.com

Temps moyen entre pannes - SSD

Le Mean Time Between Failures , ou MTBF, pour this SSD est répertorié comme 1,500,000 heures.

C'est beaucoup d'heures. 1,500,000 les heures sont à peu près 170 années. Puisque l'invention de ce SSD particulier est post-guerre civile, comment savent-ils ce qu'est le MTBF?

Quelques options qui ont du sens pour moi:

  • Newegg a juste une faute de frappe
  • La définition du temps moyen entre les pannes n'est pas ce que je pense que c'est
  • Ils utilisent un certain type d'extrapolation statistique pour estimer ce que le MTBF serait

Question:

Comment le temps moyen entre les pannes (MTFB) est-il obtenu pour les SSD/HDD?

34
OSE

Les fabricants de disques spécifient la fiabilité de leurs produits en fonction de deux mesures associées: le taux de défaillance annualisé (AFR), qui est le pourcentage de disques durs dans une population qui échouent dans un test à l'échelle d'une estimation par an; et le temps moyen de défaillance (MTTF).

L'AFR d'un nouveau produit est généralement estimé sur la base de tests de durée de vie et de stress accélérés ou sur la base de données de terrain de produits antérieurs. Le MTTF est estimé comme le nombre de puissance en heures par an divisé par l'AFR. Une hypothèse courante pour les disques des serveurs est qu'ils sont allumés 100% du temps.

http://www.cs.cmu.edu/~bianca/fast/

Un MTTF de 1,5 million d'heures semble quelque peu plausible.

Ce serait à peu près un test avec 1000 disques en cours d'exécution pendant 6 mois et 3 disques en panne.
L'AFR serait (2 * 6 mois * 3)/(1000 disques) = 0,6% par an et le MTTF = 1 an/0,6% = 1 460 967 heures ou 167 ans.

Une autre façon de voir ce nombre est lorsque vous avez 167 disques et que vous les laissez fonctionner pendant un an, le fabricant prétend que en moyenne vous verrez un disque tomber en panne.

Mais je m'attends à ce que ce soit simplement le taux de défaillance mécanique/électronique "aléatoire" constant.

En supposant que les taux d'échec suivent la courbe de la baignoire , comme mentionné dans les commentaires, l'équipe marketing du fabricant peut masser un peu les chiffres de fiabilité, par exemple en n'incluant pas les DOA (morts à l'arrivée, unités ayant passé le contrôle de qualité). mais échouent lorsque l'utilisateur final les installe) et étirer la définition DOA pour exclure également ceux du pic de défaillance précoce. Et parce que les tests ne sont pas effectués assez longtemps, vous ne verrez pas non plus les effets de l'âge.

Je pense que la période de garantie est une meilleure indication pour combien de temps un fabricant attend vraiment un SSD pour durer!
Cela ne se mesurera certainement pas en décennies ou en siècles ...


Associée au MTBF est la fiabilité associée au nombre fini de cycles d'écriture que les cellules NAND peuvent prendre en charge. Une métrique commune est la capacité totale en écriture, généralement en To. En plus des autres exigences de performances qui sont un gros limiteur.

Pour permettre une comparaison plus pratique entre les différentes marques et les disques de tailles différentes, l'endurance en écriture est souvent convertie en capacité d'écriture quotidienne en tant que fraction de la capacité du disque.

En supposant qu'un variateur est conçu pour vivre tant qu'il est sous garantie:
un SSD de 100 Go peut avoir une garantie de 3 ans et une capacité d'écriture de 50 To:

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

Plus ce nombre est élevé, plus le disque est adapté aux E/S intensives en écriture.
À l'heure actuelle (fin 2014), les disques SSD de la gamme de serveurs de valeur ont une valeur de 0,3-0,8 lecteur/jour, le milieu de gamme augmente régulièrement de 1 à 5 et le haut de gamme semble exploser avec une endurance en écriture niveaux allant jusqu'à 25 * la capacité d'entraînement par jour pendant 3-5 ans.

Certains tests dans le monde réel montrent que parfois les réclamations du fournisseur peuvent être massivement dépassées, mais conduire l'équipement bien au-delà des limites du fournisseur n'est pas toujours une considération pour l'entreprise ... Au lieu de cela achetez des disques correctement spécifiés pour vos besoins.

35
HBruijn

Malheureusement, le MTBF n'est pas ce que la plupart des gens pensent ...

  • Ce n'est pas combien de temps durera un lecteur individuel.

    Les fabricants s'attendent à ce que leurs disques durent aussi longtemps que la garantie, après quoi ce n'est vraiment pas leur problème. Les disques durs électromagnétiques plus anciens se bloqueront après environ 10 ans. Les circuits intégrés durent extrêmement longtemps, mais d'autres composants (notamment les condensateurs) s'usent après un nombre de cycles quelque peu prévisible.

  • Il s'agit de du nombre de ces disques dont vous devriez vous attendre à ce qu'un disque tombe en panne toutes les heures.

    Comme d'autres l'ont souligné, les fabricants effectuent divers tests sur une période de temps raisonnable et déterminent un taux d'échec. Il y a une grande quantité d'écarts dans ces types de tests et le marketing a souvent une "entrée" quant à ce que le nombre final devrait être. Quoi qu'il en soit, ils font de leur mieux pour deviner combien de disques seraient nécessaires pour en moyenne une panne par heure.

    Pour les situations avec moins de lecteurs, vous pouvez déduire une probabilité statistique de défaillance basée sur le MTBF, mais gardez à l'esprit que les défaillances des produits bien conçus doivent suivre une courbe "baignoire" - qui est des taux de défaillance plus élevés lorsque les appareils sont initialement mis en service et après l'expiration de leur période de garantie, avec des taux de défaillance inférieurs entre les deux.

19
Chris S

Mauvaise nouvelle à propos de MTBF est que les métodiques d'évaluation courantes supposent une charge d'écriture uniformément répartie entre toutes les cellules NAND. Mais les cellules sont regroupées dans les clusters et lorsqu'une seule cellule échoue - tout le cluster est marqué comme mort et est remplacé par un nouveau de la réserve. La réserve représente généralement environ 20% du volume du SSD. Lorsque la réserve est épuisée, le SSD entier sera marqué comme mort.

Le disque SSD IRL contient des données persistantes et volatiles. Imaginez que 90% des disques SSD sont remplis de données statiques et que 10% sont soumis à une charge d'écriture élevée. Le contrôleur SSD répartit la charge entre les clusters libres disponibles. Ces 10% épuisent leur durée de vie 10 fois plus vite que vous ne l'avez estimé. Ils seront remplacés de la réserve encore et encore jusqu'à la fin.

Dans le très mauvais cas où la quantité de données persistantes/volatiles est de 30: 1 ou plus, par exemple - pile de photos et base de données relativement petite pour un site Web populaire, votre SSD mourra dans un an.

Un de mes clients a été très impressionné par les caractéristiques SSD et a insisté pour équiper son serveur SGBD avec une paire d'entre eux. Au cours des 12 prochains mois, nous les avons remplacés deux fois.

Mais en conséquence, la durée de vie des supports marketing du SSD est de 170 ans. Sûr.

2
Kondybas

Ils proviennent d'une évaluation statistique basée sur une petite taille d'échantillon et un court laps de temps. Il n'y a vraiment pas de méthode ou de processus universellement accepté, donc c'est vraiment juste un "marketing" idiot.

Cet article peut l'expliquer un peu plus. Et Wikipedia a des formules qui pourraient être ce que vous cherchez?

Essentiellement, pour presque tout (y compris les appareils ménagers généraux tels qu'un lave-vaisselle), plusieurs produits fonctionnent pendant X fois. Le nombre d'échecs qui se produisent pendant cette période est utilisé pour calculer le MTFB.

Il n'est bien sûr pas possible d'exécuter des produits tout au long d'un cycle de vie, c'est-à-dire des SSD, qui dureront longtemps. Ils sont principalement limités par le nombre d'écritures plutôt que par une défaillance mécanique (à quoi sert le MTFB)

2
bhavicp

MTBF n'est pas pertinent pour mesurer l'endurance d'un disque SSD, car le SSD n'est pas sensible pour le moment lui-même comme un disque dur à rotation ordinaire, mais pour le nombre de réécritures pour les cellules SSD. Plus la mesure pertinente pour le SSD est Drive Writes Per Day (DWPD). Par exemple, certains disques SSD de classe entreprise d'une endurance de 3,2 To seraient de 3 DWPD pendant 5 ans.

Parfois, le fournisseur de SSD offre une endurance en termes de (total) téraoctets écrits (TBW) ou de "cycles d'écriture" qui peuvent être facilement traduits en DWPD et vice versa en connaissant le temps et le débit maximal pour le disque SSD donné.

Pour l'exemple donné avec un disque SSD de 3,2 To:
TBW = DriveSize * Years * DWPD;
TBW = 3,2 To * 5 * 365 * 3d = 17520 TB pendant 5 ans

Si le lecteur fournit un débit d'écriture durable de 80 Mo par seconde, alors
WriteCycles = DWPD * Années;
WriteCycles = 3 * 365 * 5 = 5475 cycles d'écriture au total pour le disque donné

Il est important de noter que nous calculons le pire des cas si vous fournissez un débit d'utilisation de 100% pour le lecteur (ce qui est très probablement impossible).

1
BBK