web-dev-qa-db-fra.com

"mce: [Erreur matérielle]: Les événements de vérification de l'ordinateur enregistrés" apparaissent dans syslog. Que devrais-je faire?

J'ai installé la dernière version de OSSEC (2.8.1) et j'ai également activé les notifications par courrier électronique. Et je reçois des tonnes de notifications de ce type disant qu'il y a une erreur matérielle et quelque chose à propos de mce:

OSSEC HIDS Notification.
2015 Apr 04 20:09:22

Received From: Bath-Towel->/var/log/syslog
Rule: 1002 fired (level 2) -> "Unknown problem somewhere in the system."
Portion of the log(s):

Apr  4 20:09:21 Bath-Towel kernel: [ 1873.680872] mce: [Hardware Error]: Machine check events logged



 --END OF NOTIFICATION

Alors qu'est-ce que cela signifie exactement? Que signifie mce? Et cette erreur matérielle apparente est-elle quelque chose qui devrait m'inquiéter?


Informations sur le système d'exploitation:

Description:    Ubuntu 14.10
Release:    14.10
19
user364819

exception de vérification de l'ordinateur :

A L'exception de vérification de l'ordinateur (MCE) est un type d'erreur matérielle de l'ordinateur qui se produit lorsque l'unité centrale de traitement de l'ordinateur détecte un problème matériel.

Votre ordinateur a rencontré une erreur matérielle et le noyau a enregistré un événement dans une mémoire tampon. Vous pouvez utiliser mcelog pour consigner et afficher les événements de vérification de l'ordinateur. De mcelog manpage :

Les UC X86 signalent les erreurs détectées par l’UC sous forme d’événements de vérification de la machine (MCE). Il peut s'agir d'une corruption de données détectée dans les caches de la CPU, dans la mémoire principale par un contrôleur de mémoire intégré, d'erreurs de transfert de données sur le bus frontal ou l'interconnexion de la CPU ou d'autres erreurs internes. Les causes possibles peuvent être un rayonnement cosmique, des sources d'alimentation instables, des problèmes de refroidissement, du matériel en panne, des systèmes en cours d'exécution hors spécifications ou le manque de chance.

La plupart des erreurs peuvent être corrigées par la CPU par des mécanismes internes de correction d'erreur. Les erreurs non corrigées provoquent des exceptions de vérification de l'ordinateur qui peuvent tuer des processus ou paniquer l'ordinateur. Un petit nombre d'erreurs corrigées n'est généralement pas une cause d'inquiétude, mais un nombre élevé peut indiquer une défaillance future.

Quand une erreur corrigée ou récupérée se produit, le noyau x86 écrit un enregistrement décrivant le MCE dans un tampon d’anneau interne disponible via le périphérique/dev/mcelog. mcelog récupère les erreurs dans/dev/mcelog, les décode dans un format lisible par l'homme et les imprime sur la sortie standard ou éventuellement dans le journal système.

Si vous n'avez remarqué aucun plantage, l'erreur a probablement été corrigée avec succès. Néanmoins, je vous conseille d'installer mcelog pour garder une trace de tels événements:

Sudo apt-get install mcelog

Les événements seront connectés à /var/log/mcelog. Vous pouvez aussi lancer:

Sudo mcelog --client

interroger le démon mcelog pour rechercher les erreurs.

23
Eric Carvalho