web-dev-qa-db-fra.com

Erreur: NVIDIA-SMI a échoué car il n'a pas pu communiquer avec le pilote NVIDIA

Le NVIDIA-SMI lance cette erreur:

NVIDIA-SMI a échoué car il n'a pas pu communiquer avec le pilote NVIDIA. Assurez-vous que le dernier pilote NVIDIA est installé et fonctionne

J'ai purgé NVIDIA et l'ai réinstallé en suivant les étapes mentionnées ici .

Les spécifications de mon appareil sont les suivantes:

  • Serveur avec une Tesla M40
  • Fonctionnant sur Ubuntu 16.04
  • Version du noyau Linux 4.4.0-116-x86_64 générique
  • Pilote: nvidia-384

Quelqu'un peut-il m'aider à résoudre l'erreur?

7

Essayer

  1. Téléchargez le pilote depuis ici
  2. Sudo apt-get purge nvidia* - Pour supprimer vos installations actuelles
  3. dpkg -i nvidia-diag-driver-local-repo-ubuntu1604_375.66-1_AMD64.deb - installation de ce que vous avez téléchargé plus tôt
  4. Sudo apt-get update
  5. Sudo apt-get install cuda-drivers

Après cela, continuez et redémarrez votre ordinateur. Lorsqu'il est à nouveau activé, la commande nvidia-smi Devrait s'exécuter sans problème

4
bluesummers

Le problème pourrait être dû à un "bogue" confirmé dans le correctif 4.4.0-116. J'ai rencontré le même problème avec nvidia-390. Si vous souhaitez toujours utiliser une version plus récente du pilote Nvidia, j'ai suivi les instructions ici et j'ai réussi à résoudre le problème. En général, utilisez les étapes suivantes:

  1. Si vous ne pouvez pas vous connecter au bureau et tomber dans la boucle de défaillance, appuyez sur ctrl + alt + F1 pour vous connecter en mode ligne de commande.
  2. Vérifiez si la version de gcc est obsolète, si oui, mettez-la à jour: gcc --version
  3. Si la version gcc est 5+, désinstallez d'abord le pilote nvidia: Sudo apt-get remove nvidia-390
  4. Purger le noyau 4.4.0-116: Sudo apt-get purge linux-headers-4.4.0-116 linux-headers-4.4.0-116-generic linux-image-4.4.0-116-generic linux-image-extra-4.4.0-116-generic linux-signed-image-4.4.0-116-generic
  5. Réinstallez le noyau: Sudo apt-get install linux-generic linux-signed-generic
  6. Réinstallez le nvidia-390: Sudo apt-get install nvidia-390
  7. Vérifiez si le problème est résolu par modinfo nvidia-390 -k 4.4.0-116-generic | grep vermagic, assurez-vous que retpoline apparaît cette fois
  8. Redémarrer: Sudo reboot

J'espère que cela fonctionne pour vous et d'autres personnes qui rencontrent le même problème. Le message dans le forum a sauvé mon week-end.

6
Rex Wang