Je comprends l'argument concernant la probabilité accrue de disques plus gros de rencontrer un URE pendant une reconstruction, mais je ne sais pas quelles sont les implications réelles pour cela. Cette réponse indique que la reconstruction entière échoue, mais cela signifie-t-il que toutes les données sont inaccessibles? Pourquoi serait-ce? Un URE unique provenant d'un seul secteur sur le disque n'aurait sûrement qu'un impact sur les données liées à quelques fichiers, tout au plus. Le tableau ne serait-il pas encore reconstruit, juste avec une corruption mineure de quelques fichiers?
(Je suis spécifiquement intéressé par la mise en œuvre de ZFS de RAID5 ici, mais la logique semble la même pour toute mise en œuvre de RAID5.)
Cela dépend vraiment de l'implémentation RAID spécifique:
la plupart des RAID matériels abandonneront la reconstruction et certains marqueront également la baie comme ayant échoué , la mettant hors service. La raison en est que si un URE se produit pendant une reconstruction RAID5, cela signifie que certaines données sont perdues, il est donc préférable d'arrêter complètement la baie plutôt que de risquer de se taire Corruption de données. Remarque: certains RAID matériels (principalement basés sur LSI) à la place perforeront la matrice, permettant à la reconstruction de se poursuivre tout en marquant la zone affectée secteur illisible (semblable à la façon dont se comporte le RAID logiciel Linux).
le RAID logiciel Linux peut être chargé: a) d'arrêter la reconstruction de la baie (le seul comportement des builds "anciens" MDRAID/kernels) ou b) de poursuivre le processus de reconstruction en marquant certains LBA comme mauvais/inaccessibles. La raison est qu'il vaut mieux laisser l'utilisateur faire son choix: après tout, un seul URE peut être sur l'espace libre, sans affecter du tout les données (ou n'affectant que les fichiers sans importance);
ZRAID affichera certains fichiers comme corrompus, mais il continuera avec le processus de reconstruction (voir ici pour un exemple). Encore une fois, la justification est qu'il vaut mieux continuer et faire rapport à l'utilisateur, lui permettant de faire un choix éclairé.
Si URE se produit, vous rencontrerez une corruption de données sur le bloc, qui est généralement de 256 Ko à 1 Mo, mais cela ne signifie pas que TOUTES les données de votre volume seront perdues. Ce qui n'est pas si génial avec RAID5 est une chose totalement différente: la reconstruction elle-même est stressante et il y a de fortes chances que vous obteniez une deuxième défaillance de disque d'affilée. Dans un tel cas, toutes les données seraient perdues.
Je l'expliquerais dans l'autre sens;
Si le contrôleur RAID ne s'arrête pas sur URE, que pourrait-il se passer?
Je l'ai vécu sur un serveur, le RAID n'a jamais remarqué l'URE et après la reconstruction, une corruption a commencé à s'accumuler sur l'ensemble du volume RAID.
Le disque a commencé à obtenir un secteur plus défectueux après la reconstruction et les données ont commencé à être corrompues.
Le disque n'a jamais été lancé du volume RAID, le contrôleur tombe en panne pour protéger l'intégrité des données.
Cet exemple est écrit pour vous faire penser qu'un contrôleur ne peut pas du tout envoyer un volume avec URE, c'est pour l'intégrité des données, car le volume n'est pas censé être une sauvegarde mais une résilience à une panne de disque
Je suggère de lire cette question et des réponses pour un peu plus de contexte. Ensuite, allez relire la question à laquelle vous avez lié à nouveau.
Quand quelqu'un dit à propos de cette situation que "le RAID a échoué", cela signifie que vous avez perdu l'avantage du RAID - vous avez perdu l'accès continu aux données qui était la raison pour laquelle vous avez configuré la matrice RAID en premier lieu.
Vous n'avez pas perdu toutes les données, mais la façon la plus courante de récupérer à partir d'un disque mort plus (certains) URE sur (certains) des disques restants serait de reconstruire complètement la matrice à partir de zéro, ce qui signifie restaurer toutes vos données à partir de la sauvegarde.