Cela peut sembler une question étrange, mais cela a généré une discussion animée avec certains de mes collègues. Considérez une matrice RAID de taille moyenne composée de quelque chose comme huit ou douze disques. Lors de l'achat du lot initial de disques ou de l'achat de remplacements pour agrandir la baie ou actualiser le matériel, il existe deux grandes approches:
Il y a évidemment un terrain d'entente, mais ce sont les principales mentalités opposées. J'ai été vraiment curieux de savoir quelle approche est la plus judicieuse en termes de réduction du risque de défaillance catastrophique de la baie. (Définissons cela comme "25% des disques échouent dans une fenêtre de temps égale au temps qu'il faut pour réargenter le tableau une fois.") La logique étant, si tous les disques venaient du même endroit, ils pourraient tous avoir le même défauts sous-jacents en attente de grève. La même bombe à retardement avec le même compte à rebours initial sur l'horloge, si vous voulez.
J'ai rassemblé quelques avantages et inconvénients les plus courants pour chaque approche, mais certains d'entre eux ressemblent à des conjectures et à un instinct plutôt qu'à des données factuelles solides.
Si nous allons simplement par nombre de puces, "acheter en gros" gagne assez clairement. Mais certains des avantages sont faibles et certains des inconvénients sont forts. Beaucoup de puces indiquent simplement l'inverse logique de certaines des autres. Certaines de ces choses peuvent être une superstition absurde. Mais si la superstition réussit mieux à maintenir l'intégrité de la baie, je suppose que je serais prêt à l'accepter.
Quel groupe est le plus sensé ici?
MISE À JOUR: J'ai des données pertinentes pour cette discussion. La dernière baie que j'ai personnellement construite (il y a environ quatre ans) avait huit disques. J'ai commandé auprès d'un seul fournisseur, mais j'ai divisé l'achat en deux commandes de quatre disques chacune, à environ un mois d'intervalle. Un disque de la baie a échoué dans les premières heures de fonctionnement. C'était du premier lot, et la fenêtre de retour pour cette commande s'était fermée dans le temps qu'il a fallu pour tout faire tourner.
Quatre ans plus tard, les sept disques d'origine et un remplacement fonctionnent toujours sans erreur. (touchons du bois.)
Dans la pratique, les personnes qui achètent auprès de fournisseurs d'entreprise (HPE, Dell, etc.) ne s'en soucient pas .
Les disques fournis par ces fournisseurs sont déjà répartis sur plusieurs fabricants sous le même numéro de pièce.
Un disque HP sous une référence particulière peut être HGST ou Seagate ou Western Digital.
Même numéro de pièce HP, variation du fabricant, du numéro de lot et du firmware
Cependant, vous ne devriez pas essayer de déjouer/déjouer la probabilité d'échec du lot. Vous êtes invités à essayer si cela donne la tranquillité d'esprit, mais cela ne vaut peut-être pas la peine.
Les bonnes pratiques comme le clustering, la réplication et les sauvegardes solides sont la véritable protection contre les échecs par lots. Ajoutez des pièces de rechange chaudes et froides. Surveillez vos systèmes de près. Profitez de systèmes de fichiers intelligents comme ZFS :)
Et rappelez-vous, les pannes de disque dur ne sont pas toujours mécaniques ...
Par déférence pour la réponse d'ewwhite, certains administrateurs système commandent par lots. Je ne commanderais jamais moi-même des disques sur une base individuelle, mais les opérations standard au dernier endroit où je travaillais à ce titre étaient de commander des disques par lots. Pour une machine à douze disques, SOP a dicté que les disques soient divisés en trois lots, donnant à la machine un profil de redondance à trois niveaux.
Cependant, d'autres petites tenues que j'ai consultées ont suivi différents protocoles, certaines non concernées par le lot, et d'autres divisant les lots en deux ou quatre matrices. La réponse courte est faites ce qui vous semble approprié pour le niveau de service que vous devez atteindre.
Note latérale: Le dernier endroit où j'ai travaillé était certainement en train de faire la bonne chose. La machine de stockage d'application a décidé de tomber en panne sur un lot entier de disques, et nous avons découvert que ce lot particulier avait tous le même défaut. Si nous n'avions pas suivi un protocole batch, nous aurions subi une perte catastrophique de données.
Réponse honnête de quelqu'un qui a passé beaucoup de temps à gérer les matrices de raid et les disques difficiles en train de mourir: ne disposez pas de tous vos disques du même lot si vous pouvez l'éviter.
Mon expérience ne s'applique qu'aux disques en rotation, les SSD ont leurs propres problèmes et avantages à prendre en compte lors de la commande en gros.
La meilleure façon de gérer les choses dépend principalement de la taille de la baie avec laquelle vous travaillez.Si vous travaillez avec quelque chose comme 6 baies de disques avec 2 disques redondants, vous pouvez probablement acheter en toute sécurité des disques similaires auprès de 3 fabricants et diviser la baie. comme ça.
Si vous utilisez un lecteur impair ou que vous travaillez avec des tableaux qui ne peuvent pas être facilement partitionnés comme cela, vous pouvez essayer d'autres approches comme acheter le même lecteur auprès de différents fournisseurs, ou si vous achetez en vrac, vous pouvez regarder à travers et essayez de séparer les disques en fonction de la probabilité d'être fabriqués ensemble.
Si vous utilisez une baie suffisamment petite avec la bonne technologie sous-jacente, cela peut même valoir la peine de le construire progressivement à partir de fournitures de disques hétérogènes. Commencez avec le nombre minimum de disques avec lesquels vous pouvez vous en sortir et achetez la prochaine fourniture un mois ou deux plus tard, ou lorsque vous remplissez le système. Cela vous permet également d'avoir une idée de tout problème pouvant survenir avec les modèles particuliers que vous avez choisis.
La raison derrière ce conseil est une combinaison de deux caprices de lecteurs.
MTBF est remarquablement cassé quand vous avez beaucoup de disques avec des origines similaires. Dans les statistiques, nous appellerions cela un biais d'échantillonnage, en raison de la similitude de vos échantillons, les effets de moyenne auront tendance à être moins utiles. S'il y a un défaut avec le lot ou même avec la conception elle-même, et cela se produit plus souvent que vous ne le pensez, alors les lecteurs de ce lot échoueront plus tôt que MTBF suggérerait.
Si les disques sont répartis, vous pourriez obtenir [50%, 90%, 120%, 200%] de MTBF, mais si tous les disques proviennent de ce lot de 50%, vous avez un désordre entre vos mains.
Le réassemblage des baies RAID tue les disques. Pas vraiment. Si vous obtenez une panne de disque et que la matrice est reconstruite, cela va mettre une charge supplémentaire sur les autres disques pendant qu'ils les analysent. Si vous avez un lecteur proche de l'échec, la reconstruction peut bien le retirer, ou il peut déjà avoir un emplacement d'échec dont vous n'étiez tout simplement pas au courant, car cette section n'avait pas été lue récemment.
Si vous avez beaucoup de disques du même lot, les chances que ce type de défaillance en cascade se produise sont beaucoup plus élevées que les chances si elles sont différentes. Vous pouvez atténuer cela en effectuant des analyses de patrouille régulières, des nettoyages, une resilverisation, quelle que soit la pratique recommandée pour le type de baie que vous utilisez, mais l'inconvénient est que cela affectera les performances et peut prendre des heures.
Pour un certain contexte sur la façon dont la longévité des disques varie énormément, Backblaze fait un rapport régulier sur les statistiques de panne de disque ... Je ne suis pas affilié à la société, mais ils devraient savoir de quoi ils parlent au sujet de la fiabilité du disque . Un exemple est https://www.backblaze.com/blog/hard-drive-failure-rates-q1-2017/ ... votre jeu d'échantillons sera probablement plus petit, donc les données éloignées peuvent salir votre propre expérience, c'est toujours une bonne référence.
J'ai dû réfléchir à ce problème pour un client il y a quelques années. J'ai une combinaison d'expérience pratique et de recherche pour sauvegarder la recommandation de multisource.
Mis à part vos avantages et inconvénients pour le moment, ainsi que excellente réponse d'ewwhite , la prudence suggère que si vous achetez les lecteurs vous-même, vous les multisourcez. Un rapide coup d'œil à la discussion de Wikipedia sur les faiblesses du RAID indique deux références intéressantes.
La première référence est le document ACM RAID: stockage secondaire fiable et hautes performances (Chen, Lee, Gibson, Katz et Patterson. ACM Computing Surveys. 26 : 145-185). Dans la section 3.4.4, les auteurs soulignent que les pannes matérielles ne sont pas toujours des événements statistiquement indépendants et en expliquent les raisons. Au moment où j'écris cette réponse, le document est disponible en ligne; pp 19-22 discutent de la fiabilité ( http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.41.3889 ).
La deuxième référence est Défaillances de disque dans le monde réel: que signifie pour vous un MTTF de 1000000 heures? (Schroeder, Gibson. 5e conférence USENIX sur le fichier and Storage Technologies.) Les auteurs présentent des données statistiques pour étayer l'affirmation selon laquelle les pannes de disque peuvent être regroupées dans le temps à un taux supérieur à celui prévu pour les événements indépendants. Au moment où j'écris cette réponse, ce document est également disponible en ligne ( https://www.usenix.org/legacy/events/fast07/tech/schroeder/schroeder_html/index.html ).
Dell a explicitement recommandé contre RAID 5 en 2012 en raison de défaillances de disque corrélées dans des environnements de disque volumineux; Le RAID 6 devrait devenir peu fiable pour des raisons similaires vers 2019 (Un article de ZDNet intitulé "why-raid-6-stops-working-in-2019": http://www.zdnet.com/article/why -raid-6-stops-working-in-2019 / ). Alors qu'un élément clé de ces deux éléments est la taille du disque et les temps de reconstruction, des tailles de disque plus petites et le multisourcing ont été recommandées comme atténuateur du problème RAID 5.
Alors oui, multisourcez les disques si vous le pouvez; si vous achetez auprès d'un fournisseur d'entreprise comme décrit dans réponse de ewwhite cela peut se produire pour vous de manière transparente. Cependant ... mon client a acheté 16 disques de 2 To auprès d'un fournisseur d'entreprise. Ils venaient juste du même fabricant et semblaient être fabriqués en même temps. Deux des disques sont tombés en panne dans les deux semaines suivant la configuration des baies RAID01. Vérifiez donc les disques lorsque vous les obtenez. (Vous les vérifiez déjà de toute façon, non?)
Un autre inconvénient potentiel de la commande individuelle de lecteurs est l'emballage et la manutention.
Les disques durs ne sont presque jamais fournis dans des emballages de vente au détail. Si vous les achetez un par un, ils seront certainement reconditionnés par le vendeur. J'ai trouvé ce reconditionnement très variable. Parfois, vous obtenez une belle boîte avec beaucoup de rembourrage, mais d'autres fois, vous n'obtenez pratiquement aucun rembourrage.
Une boîte plus petite est également plus vulnérable aux balles des porteurs sans dommages extérieurs évidents.
J'achète toujours d'occasion/en vrac. Les commandes que je surveille sont presque toujours le même modèle d'appareil, et leur utilisation atténue au moins le souci d'un "mauvais lot". Il y a tellement de matériel de vente d'incendie flottant sur le Web que j'ai du mal à justifier l'achat de nouveaux disques (ou autre chose d'ailleurs) à moins que ce soit pour du matériel essentiel à la mission (et tout notre matériel de sauvegarde est toujours remis à neuf!)
+ PRO: des prix en ligne compétitifs et le flot constant de matériel provenant d'environnements commerciaux changeants signifie qu'il ne faut presque aucun effort pour obtenir 50 à 80% de réduction sur la vente au détail pour les pullings de l'environnement de travail.
+ PRO: Prix bas prix libère du budget pour sur-acheter et maintenir un stock solide de matériel de remplacement.
+ PRO: Relations avec les vendeurs J'ai une poignée de vendeurs en ligne à qui j'obtiens de légères remises sur la remise déjà importante pour le matériel remis à neuf/utilisé. Je n'obtiens généralement pas cela avec Monoprice, sauf si vous achetez en grande quantité ou si vous avez un SLA avec eux. De plus, surtout avec les disques durs, assurez-vous de les tester dès la sortie de l'emballage. I 'ai jamais eu de problème avec un vendeur qui ne remboursait pas ou ne remplaçait pas le matériel DOA (sauf si c'était une arnaque que je n'ai pas réussi à attraper).
- CON: Garantie, problèmes de légitimité La garantie est basée sur la date de fabrication de l'appareil, vous devrez également garder un œil sur les huksters en ligne essayant de vous vendre des re-marques, des clones, etc.
- CON: Test Besoin de prendre en compte les frais généraux du test. Quoi qu'il en soit, vous devez également tester du matériel neuf, donc vous ne savez pas si cela s'applique.
- CON: durée de vie difficile à juger; légèrement plus sensible aux pannes de disque.
Note: si c'est une construction client et qu'ils ne demandent pas explicitement de refurb/used, toujours par shiny/new!
Si vous essayez d'atténuer le scénario de "mauvais lot", ce qui signifie que chaque disque d'un lot d'achat particulier peut/échouera presque en même temps, il est également important de prendre en compte la taille de la baie et le niveau RAID utilisé.
Si vous envisagez de passer plusieurs commandes, aucune norme définie ne s'applique à tous les niveaux. Les personnes recommandant 2 à 4 niveaux d'achat devraient se demander si un niveau entier de disques tombe en panne, la baie sera-t-elle toujours en ligne? Donc, pour les niveaux RAID de redondance comme 1/5/10/50, vous devez acheter des disques 1 à la fois. Pour RAID6, vous pouvez en acheter 2 à la fois.
Je recommanderais quelle que soit la façon dont vous achetez les disques que vous sauvegardez régulièrement et achetez des pièces de rechange chaudes/froides adéquates pour la taille de votre baie et le type de RAID.
Il est possible d'obtenir plus de fiabilité en utilisant des disques durs provenant de différents lots et idéalement de fabricants. Sinon, ils peuvent échouer trop près dans le temps. L'excellente réponse de @Eliodorus l'explique suffisamment.
Bien sûr, peu importe qui mélange les disques. Si votre fournisseur confirme qu'il le fait déjà pour vous, pas besoin de vous en soucier. Cependant, il ne semble pas raisonnable de faire de la médecine légale sur un fournisseur peut-être même différent et de conclure que quelqu'un le fait pour vous si on ne vous le dit pas directement. Les fournisseurs ne sont généralement pas paresseux pour annoncer diverses mesures qu'ils prennent pour augmenter la fiabilité de leurs lecteurs.
En fait, cela dépend du niveau Redundant array of bon marché (Raid) level. Dans Raid deux, trois, quatre, cinq et six, cela aide d'avoir des disques de plusieurs lots différents, mais ce n'est pas décisif: un perd déjà intrinsèquement la fiabilité et les performances dans l'utilisation de ces niveaux.
Maintenant, pour le choix généralement judicieux, celui d'utiliser Raid 1 (mise en miroir) ou 1 + 0 (entrelacement sur des miroirs), il est en effet utile d'avoir des lecteurs différents sur différents côtés de chaque miroir (chaque baie de Raid 1), de manière à ne pas faire échouer le miroir pendant une récupération. De plus, il devrait y avoir des disques de rechange pour minimiser la fenêtre de récupération.
Pour plus d'informations, consultez le site Web Battle Against Any Raid ‘F’2 (Baarf), ironique mais informatif, par le prestigieux Oak table network des DBA seniors. Wikipedia résume bien le problème.