Situation suivante:
Un serveur productif Linux Debian 7 avec noyau 3.2.0-4-AMD64 #1 SMP Debian 3.2.68-1+deb7u2 x86_64 GNU/Linux
Fabricant: Supermicro
Nom du produit: X10SLL-F
Version: 1.02
Contrôleur SATA: Intel Corporation Lynx Point 6-port SATA Controller 1 [AHCI mode] (rev 04)
2x SSD, 2x HDD
chaque lecteur peut faire SATA Rev3 (6,0 Go/s)
hdparm -I /dev/sd[a-d]|egrep "Model|speed|Transport"
Model Number: Toshiba THNSNH128GBST
Transport: Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
* Gen1 signaling speed (1.5Gb/s)
* Gen2 signaling speed (3.0Gb/s)
* Gen3 signaling speed (6.0Gb/s)
* SMART Command Transport (SCT) feature set
Model Number: Toshiba THNSNH128GBST
Transport: Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
* Gen1 signaling speed (1.5Gb/s)
* Gen2 signaling speed (3.0Gb/s)
* Gen3 signaling speed (6.0Gb/s)
* SMART Command Transport (SCT) feature set
Model Number: ST2000VX000-1CU164
Transport: Serial, SATA Rev 3.0
* Gen1 signaling speed (1.5Gb/s)
* Gen2 signaling speed (3.0Gb/s)
* Gen3 signaling speed (6.0Gb/s)
* SMART Command Transport (SCT) feature set
Model Number: ST2000VX000-1CU164
Transport: Serial, SATA Rev 3.0
* Gen1 signaling speed (1.5Gb/s)
* Gen2 signaling speed (3.0Gb/s)
* Gen3 signaling speed (6.0Gb/s)
* SMART Command Transport (SCT) feature set
Les messages du noyau suggèrent (à moi au moins) un problème avec les 4 disques qui mènent à croire que c'est le contrôleur SATA qui pourrait être en faute.
ata1: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata1: irq_stat 0x00400040, connection status changed
ata1: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata1: hard resetting link
ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata2: irq_stat 0x00400040, connection status changed
ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata2: hard resetting link
ata4: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata4: irq_stat 0x00400040, connection status changed
ata4: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata4: hard resetting link
ata3: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata3: irq_stat 0x00400040, connection status changed
ata3: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata3: hard resetting link
ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: configured for UDMA/33
ata2: EH complete
ata1.00: configured for UDMA/33
ata1: EH complete
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: configured for UDMA/33
ata3: EH complete
ata4.00: configured for UDMA/33
ata4: EH complete
Ce que j'ai déjà trouvé (ou croyez avoir compris)
Les commandes SECURITY FREEZE LOCK
Et DEVICE CONFIGURATION OVERLAY
Ne sont pas importants pour le problème.
Tout en lisant environ 20 bugReports et beaucoup de documentations, quelques-uns liés certains ont suggéré de désactiver la NCQ, ce que j'ai fait.
Premièrement pour un périphérique, après avoir attendu 1 jour pour vérifier si l'erreur le répète se passe à nouveau et que je l'ai désactivée pour tous les 4 périphériques
echo "1" >/sys/block/sdc/device/queue_depth
Aucun changement évident dans la situation.
https://ata.wiki.kernel.org/index.php/libata_error_mesages
https://wiki.archlinux.org/index.php/solid_state_drives#resolving_ncq_errors
D'autres suggèrent un câble SATA ou même une incompatibilité entre le tableau + des lecteurs.
Cependant, même si je semble avoir le problème sur un lecteur et que cela remplit tous les 4, ou avoir le problème directement sur tous les 4 périphériques, je suis incapable d'identifier davantage le problème.
Comme il s'agit d'un serveur de production de mise en place de ce serveur pour la maintenance (AKA BIOS/Kernel Param Modifications) est possible, mais j'aime empêcher cela si possible.
Selon la Hoster, cela pourrait être une gestion de l'électricité:
https://bugzilla.kernel.org/show_bug.cgi?id=74961https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1318218
echo "medium_power" >/sys/class/scsi_Host/host0/link_power_management_policy
Avant le changement, cela a été réglé sur max_performance
.
Cela n'a pas aidé non plus.
Les valeurs intelligentes des HDDS/SDDS sont ok, rien de trop évident.
Notez que la valeur UDMA semble être 33 maintenant seulement.
Au démarrage du serveur, il s'agissait des valeurs de vitesse SATA Link:
[ 3.161850] ata6: SATA link down (SStatus 0 SControl 300)
[ 3.161867] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[ 3.161882] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[ 3.161894] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[ 3.161907] ata5: SATA link down (SStatus 0 SControl 300)
La situation peut se produire sur une charge élevée sur le disque dur seulement, je n'ai pas encore testé cela, car cela aurait une incidence sur la performance du serveur évidemment.
Il n'y a pas de charge sur les SSDS, ils sont montés mais non utilisés par aucun des processus.
Le RAM= est ECC aussi loin que je peux dire.
dmidecode -t 17
# dmidecode 2.11
SMBIOS 2.7 present.
Handle 0x0023, DMI type 17, 34 bytes
Memory Device
Array Handle: 0x0022
Error Information Handle: Not Provided
Total Width: 72 bits
Data Width: 64 bits
Size: 8192 MB
Form Factor: DIMM
Set: None
Locator: P1-DIMMA1
Bank Locator: P0_Node0_Channel0_Dimm0
Type: DDR3
Type Detail: Synchronous
Speed: 1600 MHz
Manufacturer: Samsung
Serial Number: 373A6427
Asset Tag: 9876543210
Part Number: M391B1G73QH0-CK0
Rank: 2
Configured Clock Speed: 1600 MHz
S'il vous plaît laissez-moi savoir si je peux donner des informations supplémentaires car je manque les idées que faire ensuite.
Selon le support SuperMicro, le défaut réside avec le tableau:
Citation:
This board may need ECO 16238 update.
Ce que vous avez des expériences de serveur est essentiellement une renégociation SATA à une vitesse de liaison inférieure après un problème de communication avec les lecteurs.
Ces facteurs peuvent être au travail ici (commandé par une probabilité)
fstrim /
. Ça change quelque chose?