RAID-5: deux disques sont tombés en panne simultanément?

Question

Nous avons un serveur Dell PowerEdge T410 exécutant CentOS, avec une matrice RAID-5 contenant 5 disques Seagate Barracuda 3 TB SATA. Hier, le système est tombé en panne (je ne sais pas exactement comment et je ne le fais pas) t pas de journaux).

Lors du démarrage dans le BIOS du contrôleur RAID, j'ai vu que sur les 5 disques, le disque 1 était étiqueté "manquant" et le disque 3 était "dégradé". J'ai forcé la sauvegarde du disque 3 et remplacé le disque 1 par un nouveau disque dur (de la même taille). Le BIOS a détecté cela et a commencé à reconstruire le disque 1 - mais il est resté bloqué à% 1. L'indicateur de progression de rotation n'a pas bougé toute la nuit; totalement gelé.

Quelles sont mes options ici? Existe-t-il un moyen de tenter de reconstruire, en plus d'utiliser un service de récupération de données professionnel? Comment deux disques durs pourraient-ils tomber en panne simultanément comme ça? Semble trop fortuit. Est-il possible que le disque 1 soit tombé en panne et qu'en conséquence le disque 3 "ne soit plus synchronisé?" Si oui, existe-t-il un utilitaire que je peux utiliser pour le récupérer "en synchronisation?"

peterh - Reinstate Monica · Accepted Answer

Après avoir accepté une réponse mauvaise, je suis vraiment désolé pour mon opinion hérétique (qui a déjà enregistré de tels tableaux plusieurs fois).

Votre second disque défectueux a probablement un problème mineur, peut-être une panne de bloc. C'est la raison pour laquelle l'outil de synchronisation mauvais de votre firmware mauvais raid5 s'est écrasé dessus.

Vous pouvez facilement faire une copie au niveau du secteur avec un outil de clonage de disque de bas niveau (par exemple, gddrescue est probablement très utile) et utiliser ce disque comme nouveau disque3. Dans ce cas, votre baie a survécu avec une corruption de données mineure.

Je suis désolé, il est probablement trop tard, car l'essence de la réponse orthodoxe dans ce cas: "échec multiple dans un raid5, voici l'apocalypse!"

Si vous voulez un très bon raid redondant, utilisez le raid logiciel sous Linux. Par exemple, sa disposition de données de superbloc raid est publique et documentée ... Je suis vraiment désolé, pour ce ceci, une autre opinion hérétique.

Basil · Answer

Vous avez une panne de double disque. Cela signifie que vos données ont disparu et que vous devrez restaurer à partir d'une sauvegarde. C'est pourquoi nous ne sommes pas censés utiliser le raid 5 sur de grands disques. Vous souhaitez configurer votre raid afin de pouvoir toujours résister à deux pannes de disque, en particulier avec les gros disques lents.

HopelessN00b · Answer

Vos options sont:

Restauration à partir de sauvegardes.
- Vous avez avez des sauvegardes, n'est-ce pas? RAID n'est pas une sauvegarde.
Récupération de données professionnelle
- Il est possible, bien que très coûteux et non garanti, qu'un service de récupération professionnel puisse récupérer vos données.
Accepter votre perte de données et apprendre de l'expérience.
- Comme indiqué dans les commentaires, les disques SATA volumineux ne sont pas recommandés pour une configuration RAID 5 en raison du risque de double échec lors de la reconstruction entraînant l'échec de la baie.
  - S'il doit s'agir d'un RAID de parité, le RAID 6 est meilleur et la prochaine fois, utilisez également un disque de secours.
  - Les disques SAS sont meilleurs pour diverses raisons, notamment plus de fiabilité, de résilience et des taux d'erreurs binaires irrécupérables plus faibles qui peuvent provoquer des URE (erreurs de lecture irrécupérables)
- Comme indiqué ci-dessus, RAID n'est pas une sauvegarde. Si les données sont importantes, assurez-vous qu'elles sont sauvegardées et que vos sauvegardes sont testées pour la restauration.

richardb · Answer

Un échec simultané est possible, voire probable, pour les raisons avancées par d'autres. L'autre possibilité est que l'un des disques était tombé en panne quelque temps auparavant et que vous ne le contrôliez pas activement.

Assurez-vous que votre surveillance capterait rapidement un volume RAID fonctionnant en mode dégradé. Peut-être que vous n'avez pas eu d'option mais ce n'est jamais bon d'avoir à apprendre ces choses à partir du BIOS.

Rickkee Ranton · Answer

Le thread est ancien mais si vous lisez, comprenez quand un disque tombe en panne dans une matrice RAID, vérifiez l'âge des disques. Si vous disposez de plusieurs disques dans un réseau RAID et qu'ils ont plus de 4 à 5 ans, les chances sont bonnes qu'un autre disque tombe en panne. *** FAITES UNE IMAGE ou une sauvegarde ** avant de continuer. Si vous pensez avoir une sauvegarde, testez-la pour vous assurer que vous pouvez la lire et la restaurer.

La raison en est que vous placez des années d'usure normale sur les disques restants alors qu'ils tournent à pleine vitesse pendant des heures et des heures. Plus le nombre de disques durs de 6 ans est élevé, plus le risque de défaillance d'un autre disque dur augmente. Si c'est RAID5, et que vous faites exploser la baie, génial vous avez une sauvegarde mais un disque de 2 To prendra 8 à 36 heures à restaurer selon le type de contrôleur de raid et autre matériel.

Nous remplaçons régulièrement l'intégralité du raid Hive sur les serveurs de production si tous les disques sont anciens. Pourquoi ne pas perdre de temps à remplacer un lecteur, puis attendre que le suivant tombe en panne dans un jour, une semaine, un mois ou deux. Aussi effrayants que soient les lecteurs, cela ne vaut tout simplement pas le temps d'arrêt.

Halfgaar · Answer

Pour répondre "Comment deux disques durs peuvent-ils tomber en panne simultanément comme ça?" précisément, je voudrais citer cet article :

Le nœud de l'argument est le suivant. Les unités de disque étant devenues de plus en plus grandes (doublant environ en deux ans), l'URE (erreur de lecture irrécupérable) ne s'est pas amélioré au même rythme. URE mesure la fréquence d'apparition d'une erreur de lecture irrécupérable et est généralement mesurée en erreurs par bit de lecture. Par exemple, un taux URE de 1E-14 (10 ^ -14) implique que statistiquement, une erreur de lecture irrécupérable se produirait une fois tous les 1E14 bits lus (1E14 bits = 1,2513 octets ou environ 12 To).

...

L'argument est que, à mesure que les capacités du disque augmentent et que le taux d'URÉ ne s'améliore pas au même rythme, la possibilité d'un échec de reconstruction RAID5 augmente avec le temps. Statistiquement, il montre qu'en 2009, les capacités des disques auraient suffisamment augmenté pour rendre inutile l'utilisation de RAID5 pour n'importe quelle baie significative.

Ainsi, RAID5 n'était pas sûr en 2009. RAID6 le sera bientôt aussi. Quant à RAID1, j'ai commencé à les fabriquer à partir de 3 disques. RAID10 avec 4 disques est également précaire.

Brian Minton · Answer

Si votre contrôleur est reconnu par dmraid (par exemple ici ) sous linux, vous pourrez peut-être utiliser ddrescue pour récupérer le disque défaillant sur un nouveau, et utiliser dmraid pour construire le tableau, au lieu de votre contrôleur matériel.

Payton Byrd · Answer

Généralement, lorsque vous achetez des disques en grande quantité auprès d'un revendeur réputé, vous pouvez demander que les disques proviennent de différents lots, ce qui est important pour les raisons indiquées ci-dessus. Ensuite, c'est précisément la raison pour laquelle RAID 1 + 0 existe. Si vous aviez utilisé 6 disques en RAID 1 + 0, vous auriez eu 9 To de données avec redondance immédiate où aucune reconstruction d'un volume n'est nécessaire.