Dans /var/log/kern.log
:
kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
Ceci est edac
journal, une des mémoires a ce
erreur.
J'ai lu EDAC DOC
Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:
Channel 0 Channel 1
===================================
csrow0 | DIMM_A0 | DIMM_B0 |
csrow1 | DIMM_A0 | DIMM_B0 |
===================================
===================================
csrow2 | DIMM_A1 | DIMM_B1 |
csrow3 | DIMM_A1 | DIMM_B1 |
===================================
et trouvez le canal d'erreur:
$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0
et il devrait être mc0/csrow0/ch2
, comme le doc, le DIMM devrait être DIMM_C0
, et peut être trouvé par dmidecode
:
Mais je ne trouve pas ce dimm, donc je ne sais pas quelle mémoire a un problème:
$ dmidecode -t memory | grep 'Locator: PROC'
Locator: PROC 1 DIMM 2A
Locator: PROC 1 DIMM 1D
Locator: PROC 1 DIMM 4B
Locator: PROC 1 DIMM 3E
Locator: PROC 1 DIMM 6C
Locator: PROC 1 DIMM 5F
Locator: PROC 2 DIMM 2A
Locator: PROC 2 DIMM 1D
Locator: PROC 2 DIMM 4B
Locator: PROC 2 DIMM 3E
Locator: PROC 2 DIMM 6C
Locator: PROC 2 DIMM 5F
Il y a 12 emplacements et 9 emplacements ont une mémoire.
Alors, comment puis-je savoir quelle mémoire a un problème?
Supplément:
System Information
Manufacturer: HP
Product Name: ProLiant DL180 G6
Votre problème DIMM est probable - Locator: PROC 1 DIMM 5F
CPU # 0channel # 2_DIMM # 0 signifie:
PROC 1,
1D,2A = Channel 0
3E,4B = Channel 1
5F,6C = Channel 2
5F = DIMM 0
6C = DIMM 1
Éditer:
Lorsque vous posez des questions, plus d'informations est toujours meilleure ... Le fabricant et le modèle de serveur auraient simplifié ce problème:
Voici le diagramme de la mémoire à partir du HP ProLiant DL180 G6 QuickSpecs :
Ma suggestion que le DIMM dans la machine à sous CPU n ° 1 est correct ... mais c'est le matériel HP. Vous n'avez pas besoin de deviner !!
Vous devez utiliser les agents de gestion HP, car ils peuvent alerter et fournir des détails spécifiques à la plate-forme sur la santé et le statut matériel ...
[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.
--------------------------------------------------------------------------
This server ProLiant DL180 G6 , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #: 0
Processor #: 1
Module #: 2
Present: Yes
Form Factor: fh
Memory Type: 5h
Size: 4096 MB
Speed: 1333 MHz
Status: N/A
Cartridge #: 0
Processor #: 1
Module #: 1
Present: Yes
Form Factor: fh
Memory Type: 5h
Size: 4096 MB
Speed: 1333 MHz
Status: N/A
Cartridge #: 0
Processor #: 1
Module #: 4
Present: Yes
Form Factor: fh
Memory Type: 5h
Size: 4096 MB
Speed: 1333 MHz
Status: N/A
Cartridge #: 0
Processor #: 1
Module #: 6
Present: Yes
Form Factor: fh
Memory Type: 5h
Size: 4096 MB
Speed: 1333 MHz
Status: N/A