Dmesg plein d'erreurs d'E / S, smart ok, quatre disques affectés

Question

Je travaille sur un serveur distant (Dell Poweredge) qui était une nouvelle installation. Il dispose de quatre disques (2 To) et de 2 SSD (250 Go). Un SSD contient le système d'exploitation (RHEL7) et les quatre disques mécaniques vont éventuellement contenir une base de données Oracle.

Essayer de créer une matrice RAID logicielle a conduit à des disques constamment marqués comme défectueux. La vérification de dmesg génère une série des erreurs suivantes,

[127491.711407] blk_update_request: I/O error, dev sde, sector 3907026080 [127491.719699] sd 0:0:4:0: [sde] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE [127491.719717] sd 0:0:4:0: [sde] Sense Key : Aborted Command [current] [127491.719726] sd 0:0:4:0: [sde] Add. Sense: Logical block guard check failed [127491.719734] sd 0:0:4:0: [sde] CDB: Read(32) [127491.719742] sd 0:0:4:0: [sde] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00 [127491.719750] sd 0:0:4:0: [sde] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08 [127491.719757] blk_update_request: I/O error, dev sde, sector 3907026080 [127491.719764] Buffer I/O error on dev sde, logical block 488378260, async page read [127497.440222] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE [127497.440240] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current] [127497.440249] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed [127497.440258] sd 0:0:5:0: [sdf] CDB: Read(32) [127497.440266] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00 [127497.440273] sd 0:0:5:0: [sdf] CDB[10]: 00 01 a0 00 00 01 a0 00 00 00 00 00 00 00 00 08 [127497.440280] blk_update_request: I/O error, dev sdf, sector 106496 [127497.901432] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE [127497.901449] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current] [127497.901458] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed [127497.901467] sd 0:0:5:0: [sdf] CDB: Read(32) [127497.901475] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00 [127497.901482] sd 0:0:5:0: [sdf] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08 [127497.901489] blk_update_request: I/O error, dev sdf, sector 3907026080 [127497.911003] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE [127497.911019] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current] [127497.911029] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed [127497.911037] sd 0:0:5:0: [sdf] CDB: Read(32) [127497.911045] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00 [127497.911052] sd 0:0:5:0: [sdf] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08 [127497.911059] blk_update_request: I/O error, dev sdf, sector 3907026080 [127497.911067] Buffer I/O error on dev sdf, logical block 488378260, async page read

Ces erreurs se produisent pour les quatre disques mécaniques, (sdc/sdd/sde/sdf) SMARTctl a réussi les quatre disques, tests longs et courts. J'exécute actuellement des badblocks (test du mode d'écriture ~ 35 heures, probablement encore 35 heures).

Voici les erreurs que j'ai soupçonnées/prises en compte lors de la recherche

Disque dur défectueux - Il semble peu probable que 4 disques "remis à neuf" soient DOA, n'est-ce pas?
Problème de contrôleur de stockage (mauvais câble?) - Il semble que cela affecterait également les SSD?
- Problème de noyau, le seul changement au noyau de stock a été l'ajout de kmod-oracleasm. Je ne vois vraiment pas comment cela pourrait causer ces défauts, ASM n'est pas configuré du tout.

Un autre événement notable a été lors de la tentative de remise à zéro des disques (dans le cadre du dépannage précoce), en utilisant la commande $ dd si =/dev/zero of =/dev/sdX a généré ces erreurs,

dd: writing to ‘/dev/sdc’: Input/output error 106497+0 records in 106496+0 records out 54525952 bytes (55 MB) copied, 1.70583 s, 32.0 MB/s dd: writing to ‘/dev/sdd’: Input/output error 106497+0 records in 106496+0 records out 54525952 bytes (55 MB) copied, 1.70417 s, 32.0 MB/s dd: writing to ‘/dev/sde’: Input/output error 106497+0 records in 106496+0 records out 54525952 bytes (55 MB) copied, 1.71813 s, 31.7 MB/s dd: writing to ‘/dev/sdf’: Input/output error 106497+0 records in 106496+0 records out 54525952 bytes (55 MB) copied, 1.71157 s, 31.9 MB/s

Si quelqu'un ici pouvait partager un aperçu de ce qui pourrait causer cela, je vous en serais reconnaissant. Je suis enclin à suivre le rasoir d'Occam ici et à aller directement vers les disques durs, le seul doute vient de l'improbabilité de quatre disques durs défectueux hors de leur boîte.

Je me rendrai sur le site demain pour une inspection physique et pour faire rapport de mon évaluation de cette machine aux plus hauts responsables. S'il y a quelque chose que je devrais inspecter physiquement (au-delà des câbles/connexions/alimentation), veuillez me le faire savoir.

Merci.

shodanshok · Accepted Answer

Vos tests dd montrent que les quatre disques échouent tous à l'adresse même LBA. Comme il est extrêmement improbable que quatre disques tombent tous en panne au même endroit, je soupçonne fortement que cela est dû à des problèmes de contrôleur ou de câblage.