Redémarrage du service systemd en cas d'échec de la dépendance

Question

Quelle est la bonne approche pour gérer le redémarrage d'un service dans le cas où l'une de ses dépendances échoue au démarrage (mais réussit après une nouvelle tentative).

Voici une reproduction artificielle pour clarifier le problème.

a.service (simule l'échec au premier essai et le succès au deuxième essai)

[Unit] Description=A [Service] ExecStartPre=/bin/sh -x -c "[ -f /tmp/success ] || (touch /tmp/success && sleep 10)" ExecStart=/bin/true TimeoutStartSec=5 Restart=on-failure RestartSec=5 RemainAfterExit=yes

b.service (réussit trivialement après le démarrage de A)

[Unit] Description=B After=a.service Requires=a.service [Service] ExecStart=/bin/true RemainAfterExit=yes Restart=on-failure RestartSec=5

Commençons b:

# systemctl start b A dependency job for b.service failed. See 'journalctl -xe' for details.

Journaux:

Jun 30 21:34:54 debug systemd[1]: Starting A... Jun 30 21:34:54 debug sh[1308]: + '[' -f /tmp/success ']' Jun 30 21:34:54 debug sh[1308]: + touch /tmp/success Jun 30 21:34:54 debug sh[1308]: + sleep 10 Jun 30 21:34:59 debug systemd[1]: a.service start-pre operation timed out. Terminating. Jun 30 21:34:59 debug systemd[1]: Failed to start A. Jun 30 21:34:59 debug systemd[1]: Dependency failed for B. Jun 30 21:34:59 debug systemd[1]: Job b.service/start failed with result 'dependency'. Jun 30 21:34:59 debug systemd[1]: Unit a.service entered failed state. Jun 30 21:34:59 debug systemd[1]: a.service failed. Jun 30 21:35:04 debug systemd[1]: a.service holdoff time over, scheduling restart. Jun 30 21:35:04 debug systemd[1]: Starting A... Jun 30 21:35:04 debug systemd[1]: Started A. Jun 30 21:35:04 debug sh[1314]: + '[' -f /tmp/success ']'

A a été démarré avec succès mais B reste dans un état d'échec et ne réessayera pas.

MODIFIER

J'ai ajouté ce qui suit aux deux services et maintenant B démarre avec succès lorsque A démarre, mais je ne peux pas expliquer pourquoi.

[Install] WantedBy=multi-user.target

Pourquoi cela affecterait-il la relation entre A et B?

EDIT2

Au-dessus de "fix" ne fonctionne pas dans systemd 220.

journaux de débogage systemd 219

systemd219 systemd[1]: Trying to enqueue job b.service/start/replace systemd219 systemd[1]: Installed new job b.service/start as 3454 systemd219 systemd[1]: Installed new job a.service/start as 3455 systemd219 systemd[1]: Enqueued job b.service/start as 3454 systemd219 systemd[1]: About to execute: /bin/sh -x -c '[ -f /tmp/success ] || (touch oldcoreos systemd219 systemd[1]: Forked /bin/sh as 1502 systemd219 systemd[1]: a.service changed dead -> start-pre systemd219 systemd[1]: Starting A... systemd219 systemd[1502]: Executing: /bin/sh -x -c '[ -f /tmp/success ] || (touch /tmpoldcoreos systemd219 sh[1502]: + '[' -f /tmp/success ']' systemd219 sh[1502]: + touch /tmp/success systemd219 sh[1502]: + sleep 10 systemd219 systemd[1]: a.service start-pre operation timed out. Terminating. systemd219 systemd[1]: a.service changed start-pre -> final-sigterm systemd219 systemd[1]: Child 1502 belongs to a.service systemd219 systemd[1]: a.service: control process exited, code=killed status=15 systemd219 systemd[1]: a.service got final SIGCHLD for state final-sigterm systemd219 systemd[1]: a.service changed final-sigterm -> failed systemd219 systemd[1]: Job a.service/start finished, result=failed systemd219 systemd[1]: Failed to start A. systemd219 systemd[1]: Job b.service/start finished, result=dependency systemd219 systemd[1]: Dependency failed for B. systemd219 systemd[1]: Job b.service/start failed with result 'dependency'. systemd219 systemd[1]: Unit a.service entered failed state. systemd219 systemd[1]: a.service failed. systemd219 systemd[1]: a.service changed failed -> auto-restart systemd219 systemd[1]: a.service: cgroup is empty systemd219 systemd[1]: a.service: cgroup is empty systemd219 systemd[1]: a.service holdoff time over, scheduling restart. systemd219 systemd[1]: Trying to enqueue job a.service/restart/fail systemd219 systemd[1]: Installed new job a.service/restart as 3718 systemd219 systemd[1]: Installed new job b.service/restart as 3803 systemd219 systemd[1]: Enqueued job a.service/restart as 3718 systemd219 systemd[1]: a.service scheduled restart job. systemd219 systemd[1]: Job b.service/restart finished, result=done systemd219 systemd[1]: Converting job b.service/restart -> b.service/start systemd219 systemd[1]: a.service changed auto-restart -> dead systemd219 systemd[1]: Job a.service/restart finished, result=done systemd219 systemd[1]: Converting job a.service/restart -> a.service/start systemd219 systemd[1]: About to execute: /bin/sh -x -c '[ -f /tmp/success ] || (touch oldcoreos systemd219 systemd[1]: Forked /bin/sh as 1558 systemd219 systemd[1]: a.service changed dead -> start-pre systemd219 systemd[1]: Starting A... systemd219 systemd[1]: Child 1558 belongs to a.service systemd219 systemd[1]: a.service: control process exited, code=exited status=0 systemd219 systemd[1]: a.service got final SIGCHLD for state start-pre systemd219 systemd[1]: About to execute: /bin/true systemd219 systemd[1]: Forked /bin/true as 1561 systemd219 systemd[1]: a.service changed start-pre -> running systemd219 systemd[1]: Job a.service/start finished, result=done systemd219 systemd[1]: Started A. systemd219 systemd[1]: Child 1561 belongs to a.service systemd219 systemd[1]: a.service: main process exited, code=exited, status=0/SUCCESS systemd219 systemd[1]: a.service changed running -> exited systemd219 systemd[1]: a.service: cgroup is empty systemd219 systemd[1]: About to execute: /bin/true systemd219 systemd[1]: Forked /bin/true as 1563 systemd219 systemd[1]: b.service changed dead -> running systemd219 systemd[1]: Job b.service/start finished, result=done systemd219 systemd[1]: Started B. systemd219 systemd[1]: Starting B... systemd219 systemd[1]: Child 1563 belongs to b.service systemd219 systemd[1]: b.service: main process exited, code=exited, status=0/SUCCESS systemd219 systemd[1]: b.service changed running -> exited systemd219 systemd[1]: b.service: cgroup is empty systemd219 sh[1558]: + '[' -f /tmp/success ']'

journaux de débogage systemd 22

systemd220 systemd[1]: b.service: Trying to enqueue job b.service/start/replace systemd220 systemd[1]: a.service: Installed new job a.service/start as 4846 systemd220 systemd[1]: b.service: Installed new job b.service/start as 4761 systemd220 systemd[1]: b.service: Enqueued job b.service/start as 4761 systemd220 systemd[1]: a.service: About to execute: /bin/sh -x -c '[ -f /tmp/success ] || (touch /tmp/success && sleep 10)' systemd220 systemd[1]: a.service: Forked /bin/sh as 2032 systemd220 systemd[1]: a.service: Changed dead -> start-pre systemd220 systemd[1]: Starting A... systemd220 systemd[2032]: a.service: Executing: /bin/sh -x -c '[ -f /tmp/success ] || (touch /tmp/success && sleep 10)' systemd220 sh[2032]: + '[' -f /tmp/success ']' systemd220 sh[2032]: + touch /tmp/success systemd220 sh[2032]: + sleep 10 systemd220 systemd[1]: a.service: Start-pre operation timed out. Terminating. systemd220 systemd[1]: a.service: Changed start-pre -> final-sigterm systemd220 systemd[1]: a.service: Child 2032 belongs to a.service systemd220 systemd[1]: a.service: Control process exited, code=killed status=15 systemd220 systemd[1]: a.service: Got final SIGCHLD for state final-sigterm. systemd220 systemd[1]: a.service: Changed final-sigterm -> failed systemd220 systemd[1]: a.service: Job a.service/start finished, result=failed systemd220 systemd[1]: Failed to start A. systemd220 systemd[1]: b.service: Job b.service/start finished, result=dependency systemd220 systemd[1]: Dependency failed for B. systemd220 systemd[1]: b.service: Job b.service/start failed with result 'dependency'. systemd220 systemd[1]: a.service: Unit entered failed state. systemd220 systemd[1]: a.service: Failed with result 'timeout'. systemd220 systemd[1]: a.service: Changed failed -> auto-restart systemd220 systemd[1]: a.service: cgroup is empty systemd220 systemd[1]: a.service: Failed to send unit change signal for a.service: Transport endpoint is not connected systemd220 systemd[1]: a.service: Service hold-off time over, scheduling restart. systemd220 systemd[1]: a.service: Trying to enqueue job a.service/restart/fail systemd220 systemd[1]: a.service: Installed new job a.service/restart as 5190 systemd220 systemd[1]: a.service: Enqueued job a.service/restart as 5190 systemd220 systemd[1]: a.service: Scheduled restart job. systemd220 systemd[1]: a.service: Changed auto-restart -> dead systemd220 systemd[1]: a.service: Job a.service/restart finished, result=done systemd220 systemd[1]: a.service: Converting job a.service/restart -> a.service/start systemd220 systemd[1]: a.service: About to execute: /bin/sh -x -c '[ -f /tmp/success ] || (touch /tmp/success && sleep 10)' systemd220 systemd[1]: a.service: Forked /bin/sh as 2132 systemd220 systemd[1]: a.service: Changed dead -> start-pre systemd220 systemd[1]: Starting A... systemd220 systemd[1]: a.service: Child 2132 belongs to a.service systemd220 systemd[1]: a.service: Control process exited, code=exited status=0 systemd220 systemd[1]: a.service: Got final SIGCHLD for state start-pre. systemd220 systemd[1]: a.service: About to execute: /bin/true systemd220 systemd[1]: a.service: Forked /bin/true as 2136 systemd220 systemd[1]: a.service: Changed start-pre -> running systemd220 systemd[1]: a.service: Job a.service/start finished, result=done systemd220 systemd[1]: Started A. systemd220 systemd[1]: a.service: Child 2136 belongs to a.service systemd220 systemd[1]: a.service: Main process exited, code=exited, status=0/SUCCESS systemd220 systemd[1]: a.service: Changed running -> exited systemd220 systemd[1]: a.service: cgroup is empty systemd220 systemd[1]: a.service: cgroup is empty systemd220 systemd[1]: a.service: cgroup is empty systemd220 systemd[1]: a.service: cgroup is empty systemd220 sh[2132]: + '[' -f /tmp/success ']'

Vadim · Accepted Answer

J'essaierai de résumer mes conclusions pour ce problème au cas où quelqu'un tomberait dessus car les informations sur ce sujet sont rares.

Restart=on-failure ne s'applique qu'aux échecs de processus (ne s'applique pas aux échecs dus à des échecs de dépendance)
Le fait que les unités échouées dépendantes soient redémarrées dans certaines conditions lorsqu'un redémarrage de dépendance a réussi était un bogue dans systemd <220: http://lists.freedesktop.org/archives/systemd-devel/2015-July/033513. html
S'il y a même une petite chance qu'une dépendance échoue au démarrage et que vous vous souciez de la résilience, n'utilisez pas Before/After et effectuez plutôt une vérification sur un artefact produit par la dépendance

par exemple.

ExecStartPre=/usr/bin/test -f /some/thing Restart=on-failure RestartSec=5s

Vous pouvez même utiliser systemctl is-active <dependecy>.

Très hacky, mais je n'ai pas trouvé de meilleures options.

À mon avis, ne pas avoir de moyen de gérer les échecs de dépendance est une faille dans systemd.

Mark Lakata · Answer

J'ai passé des jours là-dessus, essayant de le faire fonctionner de la manière "systemd", mais j'ai abandonné la frustration et j'ai écrit un script wrapper pour gérer les dépendances et les échecs. Chaque service enfant est un service systemd normal, sans "Requiert" ou "PartOf" ni aucun raccordement à d'autres services.

Mon fichier de service de niveau supérieur ressemble à ceci:

[Service] Type=simple Environment=REQUIRES=foo.service bar.service ExecStartPre=/usr/bin/systemctl start $REQUIRES ExecStart=@PREFIX@/bin/top-service.sh $REQUIRES ExecStop=/usr/bin/systemctl stop $REQUIRES

Jusqu'ici tout va bien. Le top.service contrôles de fichiers foo.service et bar.service. Le démarrage de top démarre foo et bar, et l'arrêt de top arrête foo et bar. Le dernier ingrédient est mon top-service.sh script qui surveille l'échec des services:

#!/bin/bash # This monitors REQUIRES services. If any service stops, all of the services are stopped and this script ends. REQUIRES="$@" if [ "$REQUIRES" == "" ] then echo "ERROR: no services listed" exit 1 fi echo "INFO: watching services: ${REQUIRES}" end=0 while [[ $end == 0 ]] do s=$(systemctl is-active ${REQUIRES} ) if echo $s | egrep '^(active ?)+$' > /dev/null then # $s has embedded newlines, but echo $s seems to get rid of them, while echo "$s" keeps them. # echo INFO: All active, $s end=0 else echo "WARN: ${REQUIRES}" echo WARN: $s fi if [[ $s == *"failed"* ]] || [[ $s == *"unknown"* ]] then echo "WARN: At least one service is failed or unknown, ending service" end=1 else sleep 1 fi done echo "INFO: done watching services, stopping: ${REQUIRES}" systemctl stop ${REQUIRES} echo "INFO: stopped: ${REQUIRES}" exit 1

Michael Shaw · Answer

After et Before ne définissent que l'ordre dans lequel les services seront démarrés, vos fichiers de service indiquent "Si A et B seront démarrés, A doit être démarré avant B".

Requires signifie que si ce service doit être démarré, ce service doit être démarré en premier, dans votre exemple "Si B est démarré et A n'est pas en cours d'exécution, démarrez A"

Lorsque vous ajoutez le WantedBy=multi-user.target vous dites maintenant au système que les services doivent être démarrés lors de l'initialisation du système multi-user.target, cela signifie probablement qu'une fois que vous l'avez ajouté, vous laissiez le système démarrer les services au lieu de les démarrer manuellement?

Je ne sais pas pourquoi cela ne fonctionne pas dans la version 220, cela pourrait valoir la peine d'essayer 222. Je vais creuser un VM et essayer vos services quand j'en aurai l'occasion.

Matt · Answer

Cela semble être le genre de chose qui pourrait être scriptée et mise dans un cronjob assez facilement. La logique de base serait quelque chose comme ça

vérifiez si les services a et b ainsi que les dépendances sont en cours d'exécution/dans un état valide. Vous saurez la meilleure façon de vérifier si tout fonctionne correctement
Si tout fonctionne correctement, ne rien faire ou enregistrer que tout fonctionne. La journalisation a l'avantage de vous permettre de rechercher l'entrée de journal précédente.
Si quelque chose ne fonctionne pas, redémarrez les services et revenez au début du script où se produit la vérification de l'état du service et des dépendances. Le saut ne doit se produire que si vous êtes sûr du redémarrage des services et que les dépendances auront une forte probabilité de fonctionner, sinon il y a un potentiel de boucle.
Laissez cron réexécuter le script dans quelques instants

Une fois le script défini, cron est un bon endroit pour le tester.Si cron est inefficace, le script serait un bon point de départ pour tenter d'écrire un service système de bas niveau qui peut vérifier l'état de certains autres services et les redémarrer si nécessaire. Selon la quantité d'efforts que vous souhaitez investir, le script pourrait même être configuré pour vous envoyer un e-mail en fonction des résultats (sauf bien sûr, les services en question sont les services réseau).