Comment trouver un module de mémoire défectueux à partir du message MCE?

Question

J'essaye de comprendre le message MCE pour trouver quel module de mémoire est mauvais sur un serveur. Ce message apparaît dans /var/log/kern.log dans un serveur qui se fige deux fois aujourd'hui.

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090 Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0 Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error

Je soupçonne un mauvais module de mémoire. Le serveur est un 2x Xeon E5-2650 avec des modules de mémoire 8x8Go (8 emplacements de mémoire pour chaque processeur)

Voici la population de modules de mémoire de lshw:

 *-memory:0 description: System Memory physical id: 2d slot: System board or motherboard *-bank:0 description: DIMM DDR3 1333 MHz (0,8 ns) product: 9965516-197.A vendor: Kingston physical id: 0 serial: B83AE5C2 slot: P1_DIMMA1 size: 8GiB width: 64 bits clock: 1333MHz (0.8ns) *-bank:1 description: DIMM Synchronous [empty] product: Dimm1_PartNum vendor: Dimm1_Manufacturer physical id: 1 serial: Dimm1_SerNum slot: P1_DIMMA2 width: 64 bits *-bank:2 description: DIMM DDR3 1333 MHz (0,8 ns) product: 9965516-048.A vendor: Kingston physical id: 2 serial: EC309238 slot: P1_DIMMB1 size: 8GiB width: 64 bits clock: 1333MHz (0.8ns) *-bank:3 description: DIMM Synchronous [empty] product: Dimm4_PartNum vendor: Dimm4_Manufacturer physical id: 3 serial: Dimm4_SerNum slot: P1_DIMMB2 width: 64 bits *-bank:4 description: DIMM DDR3 1333 MHz (0,8 ns) product: 9965516-048.A vendor: Kingston physical id: 4 serial: E9305438 slot: P1_DIMMC1 size: 8GiB width: 64 bits clock: 1333MHz (0.8ns) *-bank:5 description: DIMM Synchronous [empty] product: Dimm7_PartNum vendor: Dimm7_Manufacturer physical id: 5 serial: Dimm7_SerNum slot: P1_DIMMC2 width: 64 bits *-bank:6 description: DIMM DDR3 1333 MHz (0,8 ns) product: 9965516-048.A vendor: Kingston physical id: 6 serial: E7305738 slot: P1_DIMMD1 size: 8GiB width: 64 bits clock: 1333MHz (0.8ns) *-bank:7 description: DIMM Synchronous [empty] product: Dimm10_PartNum vendor: Dimm10_Manufacturer physical id: 7 serial: Dimm10_SerNum slot: P1_DIMMD2 width: 64 bits *-memory:1 description: System Memory physical id: 3f slot: System board or motherboard *-bank:0 description: DIMM DDR3 1333 MHz (0,8 ns) product: 9965516-197.A vendor: Kingston physical id: 0 serial: B63A08C3 slot: P2_DIMME1 size: 8GiB width: 64 bits clock: 1333MHz (0.8ns) *-bank:1 description: DIMM Synchronous [empty] product: Dimm1_PartNum vendor: Dimm1_Manufacturer physical id: 1 serial: Dimm1_SerNum slot: P2_DIMME2 width: 64 bits *-bank:2 description: DIMM DDR3 1333 MHz (0,8 ns) product: 9965516-048.A vendor: Kingston physical id: 2 serial: EA309638 slot: P2_DIMMF1 size: 8GiB width: 64 bits clock: 1333MHz (0.8ns) *-bank:3 description: DIMM Synchronous [empty] product: Dimm4_PartNum vendor: Dimm4_Manufacturer physical id: 3 serial: Dimm4_SerNum slot: P2_DIMMF2 width: 64 bits *-bank:4 description: DIMM DDR3 1333 MHz (0,8 ns) product: 9965516-048.A vendor: Kingston physical id: 4 serial: E7305938 slot: P2_DIMMG1 size: 8GiB width: 64 bits clock: 1333MHz (0.8ns) *-bank:5 description: DIMM Synchronous [empty] product: Dimm7_PartNum vendor: Dimm7_Manufacturer physical id: 5 serial: Dimm7_SerNum slot: P2_DIMMG2 width: 64 bits *-bank:6 description: DIMM DDR3 1333 MHz (0,8 ns) product: 9965516-048.A vendor: Kingston physical id: 6 serial: E7305B38 slot: P2_DIMMH1 size: 8GiB width: 64 bits clock: 1333MHz (0.8ns) *-bank:7 description: DIMM Synchronous [empty] product: Dimm10_PartNum vendor: Dimm10_Manufacturer physical id: 7 serial: Dimm10_SerNum slot: P2_DIMMH2 width: 64 bits *-memory:2 UNCLAIMED physical id: 7 *-memory:3 UNCLAIMED physical id: 9

Comme vous pouvez le constater, il n'y a pas de module mémoire sur la banque # 5 qui. Ma question est donc: êtes-vous d'accord pour dire que ce message concerne une défaillance de la mémoire? Et si oui, comment trouver le module à remplacer?

kamger · Answer

Ces erreurs proviennent de la classe EDAC - Error Detection And Correction edac_mc de l'appareil.

Les événements que vous recevez sont des événements CE (erreurs corrigibles). Ce sont des indications qu'un module DIMM commence à échouer.

EDAC n'a signalé aucune information spécifique sur la ligne de mémoire ou le canal auquel il se réfère, il est donc difficile de dire laquelle remplacer jusqu'à ce que celle-ci échoue.

mais jetez un oeil à:/sys/devices/system/edac/mc/mc * et cela pourrait vous en dire un peu plus sur la ligne/dimm qui pourrait être défectueux.

Par exemple

ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

regardez le champ ce_count.

sur une note latérale:

Le système peut continuer à fonctionner, mais avec moins de sécurité. La maintenance préventive et le remplacement proactif des modules DIMM de mémoire présentant des CE peuvent réduire la probabilité des événements UE (erreur non corrigibles) redoutés et des "paniques" du système.

plus d'informations sur edac ici:

https://www.kernel.org/doc/Documentation/edac.txt

Tagar · Answer

Certains fournisseurs affirment que plusieurs erreurs corrigibles pendant une certaine période de temps ne sont pas préjudiciables.

Par exemple, Oracle dit de remplacer un module DIMM lorsqu'un des événements suivants se produit:

Plus de 24 erreurs corrigibles (CE) proviennent en 24 heures d'une seule barrette DIMM et aucune autre barrette DIMM ne montre d'autres CE.
Le module DIMM échoue au test de mémoire sous BIOS en raison d'erreurs de mémoire non corrigibles (UCE).
Les UCE se produisent et l'enquête montre que les erreurs proviennent de la mémoire.

Remarquez 24 erreurs en 24 heures.

https://docs.Oracle.com/cd/E19150-01/820-4213-11/dimms.html

Aussi,

Si plusieurs modules DIMM ont connu plusieurs modules CE, les autres causes possibles de modules doivent être exclues par un spécialiste Sun Support qualifié avant de remplacer les modules DIMM.

Sur le dernier point, HP dit quelque chose de similaire: il se peut que ce soit le micrologiciel du serveur qui détecte mal les erreurs de mémoire. Ils disent que dans de nombreux cas, la mise à niveau du firmware corrige les fausses alertes positives. Cela peut être particulièrement vrai si vous avez commencé à recevoir des MCE de différents modules DIMM.

Baruch Even · Answer

Il peut aider à installer mcelog et à l'exécuter en tant que démon, il peut aider à fournir de meilleurs rapports. Ils sont toujours cryptiques, mais il y a un peu plus d'informations pour trouver le module DIMM de culasse.

mcelog peut également gérer les problèmes en temps réel en désactivant les pages avec des erreurs de mémoire excessives et vous donnant ainsi plus de chances de maintenir la machine en marche plus longtemps jusqu'à ce que vous puissiez la récupérer.