web-dev-qa-db-fra.com

Message d'erreur MCE et redémarrages aléatoires

Quelqu'un peut-il m'aider à décoder la signification exacte du message suivant trouvé dans dmesg?

Jan 28 15:58:17 mint kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 7: 8c00004000010093
Jan 28 15:58:17 mint kernel: mce: [Hardware Error]: TSC 5159cf02b8 ADDR 529449f80 MISC 2040404086

Il y en a beaucoup, mais CPU 0: Machine Check: 0 Bank 7: 8c00004000010093 est constant parmi eux.

Je comprends que le processeur détecte des problèmes matériels, mais je ne comprends pas . Peut-être une clé mémoire défaillante sur la banque 7? (J'ai 8 banques complètement peuplées).

J'ai trouvé un autre thread où il était conseillé d'installer mcelog, mais apt ne trouve aucun paquet nommé mcelog.


MODIFIER:

Le système a effectué une passe de memtest et a été laissé en charge pendant une nuit entière. Il est resté solide comme un roc.

Voici ce que /var/log/syslog montre:

Sep 13 13:40:11 mint ntpd[1462]: kernel reports TIME_ERROR: 0x41: Clock Unsynchronized Sep 13 13:44:25 mint kernel: [ 648.820738] mce: [Hardware Error]: Machine check events logged Sep 13 13:44:25 mint kernel: [ 648.820770] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR Sep 13 13:44:25 mint kernel: [ 648.820778] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: c01fbb4000010093 Sep 13 13:44:25 mint kernel: [ 648.820778] EDAC sbridge MC0: TSC 0 Sep 13 13:44:25 mint kernel: [ 648.820779] EDAC sbridge MC0: ADDR 0 Sep 13 13:44:25 mint kernel: [ 648.820780] EDAC sbridge MC0: MISC 0 Sep 13 13:44:25 mint kernel: [ 648.820786] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1536846265 SOCKET 0 APIC 0

Il semble que ce soit une erreur liée à la mémoire, mais il me semble que le système redémarre pendant les opérations d’E/S sur les disques.

La machine continue à redémarrer au hasard. Toute aide serait incroyablement bienvenue.

1
MadHatter

D'après les commentaires ...

Bien que memtest semble fonctionner correctement, tout indique que vous avez un problème de mémoire intermittent avec Banque 7: c01fbb400001009.

Il peut s’agir d’un échec de module de mémoire RAM, d’un échec d’assise du module de mémoire RAM ou d’un slot de mémoire défectueux sur votre carte mère.

Si vos emplacements de mémoire sont identifiés par des numéros de banque sur la carte logique, marquez le module de mémoire de la banque 7 avec un stylo marqueur noir. En supposant que tous vos modules de mémoire soient de la même marque/marque/modèle, faites pivoter TOUS les modules de mémoire N SEUL EMPLACEMENT, de sorte que RAM La banque de modules de mémoire 7 se termine dans la banque 6. Assurez-vous que vous utilisez les techniques de mise à la terre appropriées ESD lors de la manipulation des modules RAM. Relancez memtest, en notant les échecs.

Si memtest fonctionne correctement, redémarrez le système. S'il fonctionne correctement, vous avez résolu le problème. S'il échoue avec une erreur de banque 6 (ou autre chose que la banque 7), vous avez identifié le module de mémoire défectueux.

Les modules de mémoire doivent être installés/supprimés par paires. Un module se trouve normalement sur le canal de mémoire A et l’autre sur le canal de mémoire B. Ceci sert à l’entrelacement de la mémoire. Si vous souhaitez identifier/éliminer complètement un module RAM spécifique, supprimez-le et son compagnon d'entrelacement, redémarrez le système et relancez le test.

1
heynnema