web-dev-qa-db-fra.com

Comment déboguer un écran noir après s'être connecté avec des pilotes NVidia qui se corrigent étrangement à des moments aléatoires?

J'aimerais décrire mes malheurs Nvidia des derniers jours ici dans l'espoir que quelqu'un puisse m'aider à diagnostiquer un problème avec les pilotes Nvidia.

arrière-plan

TL; DR

J'ai commencé à avoir ce problème sur Ubuntu 17, après avoir tourné autour de certains paquets apt (problèmes avec des dépendances cassées), puis j'ai essayé pendant un certain temps les nouveaux pilotes pour contourner ce problème, et finalement mis à niveau vers 18.04 bionic. Malheureusement, je ne sais pas exactement ce qui a causé cela.

Version longue:

  1. J'utilisais le nvidia-340 package sans problème avec ma carte GeForce 210 depuis des années.
  2. À un moment donné, je ne sais pas pourquoi, après m'être connecté à mon gestionnaire de bureau, je verrais un écran noir, avec uniquement le curseur de la souris affiché. Quel gestionnaire de bureau ou gestionnaire de fenêtres que j'ai utilisé ne semble pas faire de différence. Je pouvais toujours passer à une console virtuelle et redémarrer le service de gestion et parfois (de manière imprévisible), je pouvais me reconnecter et tout allait bien, jusqu'au prochain redémarrage.
  3. J'ai ensuite essayé de réinstaller les pilotes, depuis les paquets debian, depuis le téléchargement binaire exécuté depuis le site Web de Nvidia et depuis le ppa:graphics-drivers/ppa référentiel. Le résultat était toujours le même.
  4. J'ai ensuite brièvement essayé les nouveaux pilotes qui me permettaient de me connecter à tous les gestionnaires de fenêtres, mais ces pilotes sont lents et se bloquent de manière inattendue de temps en temps lors de la lecture de la vidéo, donc ce n'était pas acceptable pour moi. Il existe plusieurs rapports de bogues sur le net pour ce type de problèmes.
  5. J'ai depuis mis à niveau vers 18.04 bionic et réinstallé le nvidia-340 package avec apt. (J'avais d'abord désinstallé les nouveaux pilotes en les mettant sur liste noire dans la configuration de modprobe.)

Maintenant je me retrouve avec un système qui fait ça:

Je vois d'abord le logo Nvidia juste après l'écran de démarrage d'Ubuntu, puis gdm3 démarre et lorsque je me connecte à l'unité ou à gnome, je vois alors un écran noir. Le pointeur de la souris ne s'affiche pas du tout. Si je vais sur une console texte avec Alt-F3, je peux me connecter et redémarrer le gdm3 service ou gdm service. Si je le fais suffisamment de fois, à un moment donné, le système commence soudainement à fonctionner correctement et je peux me connecter à l'unité ou à gnome. Parfois, si je laisse l'ordinateur seul à l'écran de connexion pendant longtemps, il sera également corrigé, jusqu'au prochain redémarrage. Cela me dit que les pilotes que j'utilisais depuis des années sans un problème, sont toujours compatibles avec mon système. Je n'ai à aucun moment modifié les paramètres du BIOS. J'ai copié mon travail /etc/X11/xorg.conf fichier vers /usr/share/X11/xorg.conf.d/20-nvidia.conf mais cela n'a rien changé. J'ai essayé d'utiliser nvidia-xconfig pour recréer le fichier et cela fonctionne, mais le problème reste le même après le redémarrage. Je n'ai pas de CPU avec des graphismes intégrés donc ce n'est pas le problème.

Voici quelques informations sur mon système, au cas où cela serait pertinent:

$ uname -a
Linux turbox 4.15.0-70-generic #79-Ubuntu SMP Tue Nov 12 10:36:11 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux

$ lsb_release -a
LSB Version:    core-9.20170808ubuntu1-noarch:security-9.20170808ubuntu1-noarch
Distributor ID: Ubuntu
Description:    Ubuntu 18.04.3 LTS
Release:    18.04
Codename:   bionic

$ ubuntu-drivers devices
== /sys/devices/pci0000:00/0000:00:02.0/0000:01:00.0 ==
modalias : pci:v000010DEd00000A65sv00000000sd00000000bc03sc00i00
vendor   : NVIDIA Corporation
model    : GT218 [GeForce 210]
manual_install: True
driver   : nvidia-340 - distro non-free recommended

$ prime-select query
nvidia

$ Sudo lshw -c video
  *-display                 
       description: VGA compatible controller
       product: GT218 [GeForce 210]
       vendor: NVIDIA Corporation
       physical id: 0
       bus info: pci@0000:01:00.0
       version: a2
       width: 64 bits
       clock: 33MHz
       capabilities: pm msi pciexpress vga_controller bus_master cap_list rom
       configuration: driver=nvidia latency=0
       resources: irq:26 memory:fb000000-fbffffff memory:c0000000-cfffffff memory:de000000-dfffffff ioport:ef00(size=128) memory:c0000-dffff

$ nvidia-smi 
Wed Nov 20 12:01:15 2019       
+------------------------------------------------------+                       
| NVIDIA-SMI 340.107    Driver Version: 340.107        |                       
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce 210         Off  | 0000:01:00.0     N/A |                  N/A |
| N/A   50C    P0    N/A /  N/A |    630MiB /  1023MiB |     N/A      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Compute processes:                                               GPU Memory |
|  GPU       PID  Process name                                     Usage      |
|=============================================================================|
|    0            Not Supported                                               |
+-----------------------------------------------------------------------------+

$ lsmod  | grep nvidia
nvidia              10559488  198
drm                   401408  10 nvidia

$ echo $XDG_SESSION_TYPE 
x11

$ gnome-Shell --version
GNOME Shell 3.28.4

Ma question:

Étant donné que j'ai un accès à la console (et généralement également un accès graphique), puis-je faire quoi que ce soit pour déterminer la cause de cela? Je ne veux pas avoir à réinstaller mon système et tous ses logiciels, car l'environnement graphique fonctionne parfois bien, tout simplement pas de manière prévisible après le démarrage.

J'ai regardé journalctl -k et j'ai recherché sur Google toute erreur qui me semblait suspecte, mais je n'ai pas encore trouvé de solution ou de conseils utiles.

Toutes les idées sont les bienvenues. Merci!

EDIT: Voici quelques informations supplémentaires: après chaque redémarrage, lorsque je me connecte à une console virtuelle pour essayer de résoudre ce problème, à un moment apparemment aléatoire, environ 5 minutes après le démarrage, l'écran clignote et me prend loin de la console texte et dans l'écran de connexion (gestionnaire de bureau). On dirait que quelque chose s'est écrasé et redémarré, mais je ne sais pas ce que cela pourrait être. Cela ne semble pas être en corrélation avec tout ce que je fais. Après cela, je peux me connecter sans problème. À ce stade, c'est plus une nuisance qu'un véritable problème pour moi, mais toujours un peu frustrant. Je pense qu'il devrait y avoir un moyen de déboguer ces choses.

EDIT2: J'obtiens les entrées suivantes dans les journaux Xorg:

[   926.271] (II) systemd-logind: got pause for 13:68
[   926.272] (II) systemd-logind: got pause for 226:0
[   926.272] (II) systemd-logind: got pause for 13:65
[   926.272] (II) systemd-logind: got pause for 13:69
[   926.272] (II) systemd-logind: got pause for 13:67
[   926.272] (II) systemd-logind: got pause for 13:64
[   926.272] (II) systemd-logind: got pause for 13:66

En recherchant ces erreurs sur le Web, je constate que de nombreuses personnes rencontrent des problèmes non déterministes avec l'écran de connexion, ce qui m'amène à croire que ce ne sont pas les pilotes qui sont en cause ici. Il semble que cela ait quelque chose à voir avec systemd-logind et peut-être dbus, mais malheureusement je ne sais pas quoi. Si tout va bien quelqu'un avec une meilleure connaissance de Linux peut aider?

2
alexg

C'est plusieurs mois plus tard et je ne sais pas pourquoi, mais mon problème est résolu. Peut-être en raison d'une des dernières mises à jour du système.

En attendant, j'ai utilisé la suspension plutôt que l'arrêt: chaque fois que je devais redémarrer, je voyais l'écran de connexion, puis après la connexion, je ne voyais que le curseur de la souris et la fenêtre TeamViewer sur un écran par ailleurs noir, et un autre message se plaignait qu'il ne peut pas placer d'icône sur la barre des tâches (car la barre des tâches n'existait pas). Si j'attendais, la machine me montrerait soudainement l'écran de connexion à nouveau, après un laps de temps aléatoire, généralement environ 10 à 30 minutes. Une fois que cela s'est produit, je pouvais me reconnecter.

Mais maintenant, après ma première connexion, je vois (comme auparavant) TeamViewer sur un écran noir, je vois également le message se plaindre de la barre des tâches, mais après environ une minute environ, le bureau apparaît. C'est beaucoup mieux, car cela ne me dérange pas d'attendre une minute environ, car je dois rarement redémarrer la machine!

Je soupçonne qu'une des mises à jour récentes a résolu le problème, ou du moins l'a rendu moins grave. Le système est actuellement à:

$ uname -a
Linux turbox 4.15.0-92-generic #93-Ubuntu SMP Mon Mar 16 19:44:23 UTC 2020     x86_64 x86_64 x86_64 GNU/Linux

$ lsb_release -a
LSB Version:    core-9.20170808ubuntu1-noarch:security-9.20170808ubuntu1-noarch
Distributor ID: Ubuntu
Description:    Ubuntu 18.04.4 LTS
Release:    18.04
Codename:   bionic

Je ne pense plus que ce soit un problème de pilote Nvidia, peut-être quelque chose à voir avec dbus, selon les journaux.

Je n'ai malheureusement pas pu trouver la cause profonde.

Merci à tous ceux qui ont offert leur aide.

0
alexg

J'en avais aussi le 17. Ma configuration était un peu étrange car j'avais deux cartes nvidia. Il s'avère qu'il s'agissait de générations différentes et qu'il fallait différentes versions du pilote, ce qui était en conflit.

L'effet était qu'il semblait fonctionner un peu, les deux écrans fonctionnant apparemment normalement. Ensuite, si j'ouvrais trop de fenêtres, l'écran deviendrait noir.

Je l'ai résolu en résignant les deux cartes dans le seau à bits dans le ciel et en les remplaçant par une double carte DVI.

2
Adrian Challinor

J'ai eu des problèmes avec Nvidia, cela a été résolu par:

  1. Vérification du pilote compatible pour la carte graphique sur site Web de Nvidia
  2. CTRL + ALT + F3
  3. S'identifier
  4. apt-cache search nvidia-
  5. Ensuite, la clé sélectionnait une version de pilote qui était une plus ancienne. Sudo apt install nvidia-331
  6. Enfin, exécuter une mise à jour pour obtenir le dernier pilote. Sudo apt update && Sudo apt upgrade -y

Je ne sais pas exactement pourquoi cela a résolu tant de problèmes.

1
IT Gremlin