Ne pouvant pas ssh dans une machine, je l'ai connecté à un moniteur et j'ai trouvé ce qui suit:
La machine exécute Ubuntu Server 18.04 LTS et est un Ryzen 1700 de 8e génération de première génération. J'ai redémarré la machine depuis et cela fonctionne bien, mais je ne sais pas ce qui a causé cela en premier lieu et je veux éviter que cela ne se reproduise.
De: De quoi parlent tous ces messages "Bug: soft lockup"?
Situation
Dans le journal système (/ var/log/messages ou journalctl), un grand nombre des messages suivants sont imprimés.
May 25 07:23:59 XXXXXXX kernel: [13445315.881356] BUG: soft lockup - CPU#16 stuck for 23s! [yyyyyyy:81602]
suivi de diverses traces de pile. Ce document tente d'expliquer la signification des messages de verrouillage progressif.
Le message d'erreur lui-même ne vous indique pas la cause du problème.
Cause
Un "verrouillage progressif" est défini comme un bogue qui provoque la boucle du noyau en mode noyau pendant plus de 20 secondes, sans donner à d'autres tâches une chance de s'exécuter. Le démon de surveillance enverra une interruption non masquable (NMI) à tous les processeurs du système qui, à leur tour, imprimeront les traces de pile de leurs tâches en cours d'exécution.
Réduire la charge du serveur est une solution normale:
Résolution
Dans des circonstances normales, ces messages peuvent disparaître si la charge diminue. Ce "verrouillage progressif" peut se produire si le noyau est occupé, travaillant sur une énorme quantité d'objets qui doivent être analysés, libérés ou alloués respectivement. Les traces de pile de ces tâches peuvent donner une première idée de ce que faisaient les tâches. Cependant, pour pouvoir examiner la cause derrière les messages, un vidage du noyau serait nécessaire.
Vous ne pouvez pas désactiver ces messages, mais dans certaines situations, l'augmentation du délai de déclenchement de ces blocages logiciels peut détendre la situation.
Pour ce faire, augmentez simplement le paramètre
sysctl
suivant:kernel.watchdog_thresh
La valeur par défaut de ce paramètre est10
et doubler la valeur peut être un bon début.