web-dev-qa-db-fra.com

Comment «vider» les nœuds de slurm à l'état de drain

En utilisant sinfo cela montre que 3 nœuds sont dans l'état drain,

PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
all*         up   infinite      3  drain node[10,11,12]

Quelle ligne de commande utiliser pour annuler la vidange de tels nœuds?

21
elm

Trouvé une approche, entrez scontrol interpreter (dans la ligne de commande, tapez scontrol), puis

scontrol: update NodeName=node10 State=DOWN Reason="undraining"
scontrol: update NodeName=node10 State=RESUME

Alors

scontrol: show node node10

affiche entre autres informations

State=IDLE

pdate: certains de ces nœuds ont retrouvé l'état DRAIN; a remarqué que leur partition racine était pleine après par exemple show node a10 qui a montré Reason=SlurmdSpoolDir is full, donc dans Ubuntu Sudo apt-get clean retirer /var/cache/apt contenu et aussi compressé quelques /var/log des dossiers.

24
elm

Si vous le désactivez, tous les travaux seront supprimés.

Définissez plutôt le nœud sur RESUME.

12
LiPi

Si aucun travail n'est en cours d'exécution sur le nœud:

scontrol update nodename=node10 state=idle

Si des travaux sont en cours d'exécution sur le nœud:

scontrol update nodename=node10 state=resume
10