web-dev-qa-db-fra.com

Comment vérifier si un redémarrage est dû à une panne de courant?

Nous avons eu des problèmes avec le déclenchement d'un disjoncteur et je pense que nous venons de le refaire, mais je dois confirmer que l'une de nos boîtes a redémarré à la suite d'une panne de courant et non pour une autre raison banale.

J'ai glané les informations suivantes dans les journaux, mais je me demande s'il y a quelque chose de plus révélateur:

Approx time of restart:
May 19 19:54:57 atlas07 

$ last
davidpar pts/0        10.1.2.12        Sun May 19 19:54   still logged in
reboot   system boot  3.5.0-30-generic Sun May 19 19:44 - 20:19  (00:34)
davidpar pts/0        10.1.2.83        Tue May 14 04:14 - 04:21  (00:06)
...


$ tail -n 500 syslog
<cut>
May 19 19:44:58 atlas07 ntpdate[1489]: adjust time server 91.189.94.4 offset 0.000047 sec
May 19 19:45:04 atlas07 CRON[1492]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
May 19 19:54:57 atlas07 dbus[1012]: [system] Activating service name='org.freedesktop.ConsoleKit' (using servicehelper)
May 19 19:54:57 atlas07 dbus[1012]: [system] Activating service name='org.freedesktop.PolicyKit1' (using servicehelper)
May 19 19:54:57 atlas07 polkitd[1565]: started daemon version 0.104 using authority implementation `local' version `0.104'
<cut>
5
David Parks

La dernière commande affichera un crash pour l'heure de fin d'une session si l'arrêt n'était pas propre, ce qui inclurait une panne de courant. Exemple d'entrée:

myuser pts/1        myhostname  Wed Sep 28 14:18 - crash  (00:23)

En regardant vos dernières entrées (en supposant que ce soit toutes), il n'y a pas de crash répertorié, donc aucune panne de courant ne s'est produite alors que ce système était allumé. Le redémarrage répertorié ici ressemble à un redémarrage commandé et non à un blocage. Si vous n'avez pas redémarré manuellement cette boîte, vous avez alors un programme avec un accès root.

5
Fred Thomsen

Vos boîtes ne sont pas connectées à UPS? Si vous le faites, il y a généralement une journalisation et un support pour cela et vous verrez clairement quand l'alimentation tombe sur UPS et lorsque le serveur est en panne en raison d'un arrêt sécurisé. Peut-être serez-vous intéressé par cette question: https://unix.stackexchange.com/questions/13714/how-to-properly-prepare-a-server-for-power-outages7

Lorsqu'il n'y a pas d'onduleur, il est difficile d'écrire un journal lorsqu'il n'y a pas d'alimentation. C'est impossible. Vous pouvez trouver une panne d'électricité indirectement pour éliminer d'autres raisons.

Je recommande de surveiller tous les paramètres importants de vos boîtes pour décider de ce qui arrête votre système. Il peut s’agir d’une défaillance de composant sous forme de carte mère ou de mémoire (généralement certains écrans bleus/mem michmatched), d’UC et de ventilateurs (la surchauffe finit par un arrêt) ou d’erreurs de disque dur (grappes défectueuses sur les ressources système), chacun présentant des symptômes typiques.

Regardez dans/var/log/syslog /var/log/kern.log s'il y a quelque chose d'intéressant.

Une panne de courant peut être enregistrée dans le BIOS du système. Vous pouvez essayer de lire le journal du BIOS système, s’il y en a un, mais ce serait une élaboration car chaque serveur est différent de cette manière. Mais cela ne vous dira pas nécessairement ce qui se passe et pourquoi "le serveur est éteint". Essayez la commande dmidecode pour obtenir les détails du BIOS, mais je doute qu’il y ait un journal.

ou .. si vous ne souhaitez pas investir dans UPS, vous pouvez au moins surveiller la ligne électrique via un ordinateur portable sur place (permet de lire et de consigner le statut du gestionnaire d'alimentation) et d'essayer de vous connecter à un 'adaptateur' grep de acpi -V, car il devrait écrire quelque chose comme Adapter 0: on/off-line

acpi -V |grep 'Adapter'
2
Dee