Mon serveur Ubuntu 16.10 VM sous MS Azure (série NV6) a soudainement eu un hickup pour des raisons inconnues (aucune de mes actions), j'ai dû le redémarrer et lorsqu'il est revenu en ligne, je ne pouvais plus l'utiliser. le GPU sur la machine.
L'application nvidia-smi se fige.
La commande lspci
donne
lspci: Cannot open /sys/bus/pci/devices/7ec1:00:00.0/resource: No such file or directory
Et bien sûr, ce chemin (plus?) Existe. Ce qui existe est,
$: ls /sys/bus/pci/devices/
0000:00:00.0/ 0000:00:07.0/ 0000:00:07.1/ 0000:00:07.3/ 0000:00:08.0/ b717ec1:00:00.0/
Certaines recherches sur Google ont abouti à quelques questions similaires à la mienne, dont beaucoup ont été posées au cours des dernières 24 heures, comme celle-ci .
Cela peut être dû à Ubuntu ou Azure, je ne sais pas quelle est la source de ce problème ni comment le résoudre.
Quelqu'un a des idées?
J'avais le même problème (en utilisant des instances Azure NC24) et après avoir travaillé pendant quelques heures, j'ai trouvé ce message et décidé de soumettre une demande de support à Microsoft. Voici ce qu'ils m'ont dit:
Canonical semble avoir récemment publié le noyau 4.4.0-75 pour Ubuntu 16.04, ce qui a des conséquences néfastes sur les GPU Tesla sur les ordinateurs virtuels de la série NC. L’installation de la version 4.4.0-75 annule la version 8.0.61-1 du pilote NVIDIA CUDA actuellement recommandée pour ces systèmes, ce qui fait que nvidia-smi n’affiche pas les cartes et lspci renvoie une erreur semblable à celle-ci:
root@pd-nvtest2:~# lspci lspci: Cannot open /sys/bus/pci/devices/2baf:00:00.0/resource: No such file or directory
Ils suggèrent de sauvegarder le disque du système d'exploitation, en exécutant
apt-get remove linux-image-4.4.0-75-generic
puis
update-grub
Redémarrez et ça devrait marcher! À tout le moins, cela corrigeait la sortie de lspci pour moi, il me restait encore à corriger certains éléments de CUDA, mais cela est dû à des tentatives de débogage antérieures.
Cela est peut-être dû au fait que vous avez arrêté (désalloué) la machine virtuelle Azure, puis redémarré VM. Selon [1], l'adresse IP matérielle (comme gpu, cpu) a changé lorsque vous vous arrêtez (désallouez) puis que vous redémarrez VM. Mais le système Ubuntu n’a pas été mis à jour pour les nouvelles adresses IP de matériel (comme gpu, cpu). Par conséquent, lspci vous dira que vous ne pouvez pas ouvrir un dossier lié à une adresse IP matérielle.