J'essaye de comprendre le message MCE pour trouver quel module de mémoire est mauvais sur un serveur. Ce message apparaît dans /var/log/kern.log
dans un serveur qui se fige deux fois aujourd'hui.
Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error
Je soupçonne un mauvais module de mémoire. Le serveur est un 2x Xeon E5-2650 avec des modules de mémoire 8x8Go (8 emplacements de mémoire pour chaque processeur)
Voici la population de modules de mémoire de lshw
:
*-memory:0
description: System Memory
physical id: 2d
slot: System board or motherboard
*-bank:0
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-197.A
vendor: Kingston
physical id: 0
serial: B83AE5C2
slot: P1_DIMMA1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:1
description: DIMM Synchronous [empty]
product: Dimm1_PartNum
vendor: Dimm1_Manufacturer
physical id: 1
serial: Dimm1_SerNum
slot: P1_DIMMA2
width: 64 bits
*-bank:2
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 2
serial: EC309238
slot: P1_DIMMB1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:3
description: DIMM Synchronous [empty]
product: Dimm4_PartNum
vendor: Dimm4_Manufacturer
physical id: 3
serial: Dimm4_SerNum
slot: P1_DIMMB2
width: 64 bits
*-bank:4
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 4
serial: E9305438
slot: P1_DIMMC1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:5
description: DIMM Synchronous [empty]
product: Dimm7_PartNum
vendor: Dimm7_Manufacturer
physical id: 5
serial: Dimm7_SerNum
slot: P1_DIMMC2
width: 64 bits
*-bank:6
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 6
serial: E7305738
slot: P1_DIMMD1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:7
description: DIMM Synchronous [empty]
product: Dimm10_PartNum
vendor: Dimm10_Manufacturer
physical id: 7
serial: Dimm10_SerNum
slot: P1_DIMMD2
width: 64 bits
*-memory:1
description: System Memory
physical id: 3f
slot: System board or motherboard
*-bank:0
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-197.A
vendor: Kingston
physical id: 0
serial: B63A08C3
slot: P2_DIMME1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:1
description: DIMM Synchronous [empty]
product: Dimm1_PartNum
vendor: Dimm1_Manufacturer
physical id: 1
serial: Dimm1_SerNum
slot: P2_DIMME2
width: 64 bits
*-bank:2
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 2
serial: EA309638
slot: P2_DIMMF1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:3
description: DIMM Synchronous [empty]
product: Dimm4_PartNum
vendor: Dimm4_Manufacturer
physical id: 3
serial: Dimm4_SerNum
slot: P2_DIMMF2
width: 64 bits
*-bank:4
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 4
serial: E7305938
slot: P2_DIMMG1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:5
description: DIMM Synchronous [empty]
product: Dimm7_PartNum
vendor: Dimm7_Manufacturer
physical id: 5
serial: Dimm7_SerNum
slot: P2_DIMMG2
width: 64 bits
*-bank:6
description: DIMM DDR3 1333 MHz (0,8 ns)
product: 9965516-048.A
vendor: Kingston
physical id: 6
serial: E7305B38
slot: P2_DIMMH1
size: 8GiB
width: 64 bits
clock: 1333MHz (0.8ns)
*-bank:7
description: DIMM Synchronous [empty]
product: Dimm10_PartNum
vendor: Dimm10_Manufacturer
physical id: 7
serial: Dimm10_SerNum
slot: P2_DIMMH2
width: 64 bits
*-memory:2 UNCLAIMED
physical id: 7
*-memory:3 UNCLAIMED
physical id: 9
Comme vous pouvez le constater, il n'y a pas de module mémoire sur la banque # 5 qui. Ma question est donc: êtes-vous d'accord pour dire que ce message concerne une défaillance de la mémoire? Et si oui, comment trouver le module à remplacer?
Ces erreurs proviennent de la classe EDAC - Error Detection And Correction edac_mc de l'appareil.
Les événements que vous recevez sont des événements CE (erreurs corrigibles). Ce sont des indications qu'un module DIMM commence à échouer.
EDAC n'a signalé aucune information spécifique sur la ligne de mémoire ou le canal auquel il se réfère, il est donc difficile de dire laquelle remplacer jusqu'à ce que celle-ci échoue.
mais jetez un oeil à:/sys/devices/system/edac/mc/mc * et cela pourrait vous en dire un peu plus sur la ligne/dimm qui pourrait être défectueux.
Par exemple
ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count
regardez le champ ce_count.
sur une note latérale:
Le système peut continuer à fonctionner, mais avec moins de sécurité. La maintenance préventive et le remplacement proactif des modules DIMM de mémoire présentant des CE peuvent réduire la probabilité des événements UE (erreur non corrigibles) redoutés et des "paniques" du système.
plus d'informations sur edac ici:
Certains fournisseurs affirment que plusieurs erreurs corrigibles pendant une certaine période de temps ne sont pas préjudiciables.
Par exemple, Oracle dit de remplacer un module DIMM lorsqu'un des événements suivants se produit:
Plus de 24 erreurs corrigibles (CE) proviennent en 24 heures d'une seule barrette DIMM et aucune autre barrette DIMM ne montre d'autres CE.
Le module DIMM échoue au test de mémoire sous BIOS en raison d'erreurs de mémoire non corrigibles (UCE).
Les UCE se produisent et l'enquête montre que les erreurs proviennent de la mémoire.
Remarquez 24 erreurs en 24 heures.
https://docs.Oracle.com/cd/E19150-01/820-4213-11/dimms.html
Aussi,
Si plusieurs modules DIMM ont connu plusieurs modules CE, les autres causes possibles de modules doivent être exclues par un spécialiste Sun Support qualifié avant de remplacer les modules DIMM.
Sur le dernier point, HP dit quelque chose de similaire: il se peut que ce soit le micrologiciel du serveur qui détecte mal les erreurs de mémoire. Ils disent que dans de nombreux cas, la mise à niveau du firmware corrige les fausses alertes positives. Cela peut être particulièrement vrai si vous avez commencé à recevoir des MCE de différents modules DIMM.
Il peut aider à installer mcelog et à l'exécuter en tant que démon, il peut aider à fournir de meilleurs rapports. Ils sont toujours cryptiques, mais il y a un peu plus d'informations pour trouver le module DIMM de culasse.
mcelog peut également gérer les problèmes en temps réel en désactivant les pages avec des erreurs de mémoire excessives et vous donnant ainsi plus de chances de maintenir la machine en marche plus longtemps jusqu'à ce que vous puissiez la récupérer.