Question «Mce: [Erreur matérielle]: les événements de vérification de la machine enregistrés» apparaissent dans syslog. Que devrais-je faire?


J'ai installé la dernière version de OSSEC (2.8.1) et j'ai également activé les notifications par courrier électronique. Et je reçois des tonnes de ces types de notifications indiquant qu'il y a une erreur matérielle et quelque chose à propos de mce:

OSSEC HIDS Notification.
2015 Apr 04 20:09:22

Received From: Bath-Towel->/var/log/syslog
Rule: 1002 fired (level 2) -> "Unknown problem somewhere in the system."
Portion of the log(s):

Apr  4 20:09:21 Bath-Towel kernel: [ 1873.680872] mce: [Hardware Error]: Machine check events logged



 --END OF NOTIFICATION

Alors qu'est-ce que cela signifie exactement? Que représente mce? Et cette erreur matérielle apparente est-elle quelque chose dont je devrais m'inquiéter?


Informations sur le système d'exploitation:

Description:    Ubuntu 14.10
Release:    14.10

18
2018-04-04 19:37


origine


Vous devrez faire un peu de lecture sur ossec, voir les règles - ossec-docs.readthedocs.org/en/latest/manual/rules-decoders . L’interface Web est utile car elle comporte plusieurs explications - ossec.net/wiki/index.php/OSSECWUI:Install - Panther
ossec-docs.readthedocs.org/en/latest/faq/… - Panther
ossec est probablement mal pris en charge ou hors sujet ici car il n'est pas dans les dépôts Ubuntu - Panther
Il ne s'agit pas du tout d'OSSEC. Vous avez reçu cette notification car OSSEC a trouvé le mot "erreur" dans syslog. Bien que je ne pense pas que ce soit hors sujet, vous obtiendrez probablement plus d'aide Unix et Linux ou Erreur de serveur. - Eric Carvalho
@ bodhi.zazen Tout ce qu'il faut faire pour être sur le sujet est exécuté sur Ubuntu. Cela ne veut pas dire que vous obtiendrez une réponse bien sûr. - Seth♦


Réponses:


Exception de vérification de la machine:

UNE Exception de vérification de la machine (MCE) est un type de matériel informatique   erreur qui se produit lorsque l'unité centrale de traitement d'un ordinateur détecte un   problème matériel.

Votre ordinateur a rencontré une erreur matérielle et le noyau a consigné un événement dans un tampon. Vous pouvez utiliser mcelog pour enregistrer et afficher les événements de vérification de la machine. De mcelog page de manuel:

Les processeurs X86 signalent les erreurs détectées par le processeur en tant qu'événements de vérification de la machine   (MCE). Celles-ci peuvent être une corruption de données détectée dans les caches du processeur, dans   mémoire principale par un contrôleur de mémoire intégré, erreurs de transfert de données   sur le bus frontal ou l'interconnexion du processeur ou d'autres erreurs internes.   Les causes possibles peuvent être le rayonnement cosmique, les alimentations instables,   problèmes de refroidissement, matériel cassé, systèmes en cours d'exécution   spécification ou malchance.

La plupart des erreurs peuvent être corrigées par le processeur en corrigeant les erreurs internes   mécanismes. Les erreurs non corrigées provoquent des exceptions de vérification de la machine qui   peut tuer des processus ou paniquer la machine. Un petit nombre de corrections   les erreurs ne sont généralement pas une cause d'inquiétude, mais un grand nombre peut   indiquer un échec futur.

Lorsqu'une erreur corrigée ou récupérée se produit, le noyau x86 écrit une   enregistrement décrivant le MCE dans un tampon circulaire interne disponible   via le périphérique / dev / mcelog. mcelog récupère les erreurs de   / dev / mcelog, les décode dans un format lisible par l'homme et les imprime   sur la sortie standard ou éventuellement dans le journal système.

Si vous n'avez remarqué aucun crash, l'erreur a probablement été corrigée avec succès. Pourtant, je vous conseille d'installer mcelog pour suivre de tels événements:

sudo apt-get install mcelog

Les événements seront connectés à /var/log/mcelog. Vous pouvez également exécuter:

sudo mcelog --client

d'interroger le mcelog démon pour les erreurs.


21
2018-04-11 21:22



Je me demande pourquoi les erreurs MCE ne sont pas simplement écrites directement dans un journal système ... probablement certains bonne raison peut-être - Xen2050
@ Xen2050 Parce que le décodage du message dépend de l'architecture et qu'il n'est pas toujours documenté par les fabricants de matériel. L'erreur pourrait être générée même par le bus PCIe. - Mircea Vutcovici
@ Xen2050: Sur ma machine Fedora 25, les messages MCE sont écrits dans le journal, je peux les voir avec journalctl -b. - Martin Ueding