16.04 utilisateur. Depuis quelques mois (Q1 2017), je ne sais pas quand, j'ai des problèmes d'inestabilité avec ma machine.
Le système est un ancien i7 920 sur une carte mère Gigabyte EX58-UD5. Actuellement avec 24 Go de RAM et une seule carte GTX980. J'utilise les derniers pilotes nvidia du ppa "graphic-drivers" et ai installé la pile hwe (noyau 4.8 et plus récent, Xorg), mais ce problème date de l'ère 4.4 (avant la révision LTS ".2") et quelques versions arrière du pilote nvidia. Le système était stable depuis 2009 et la configuration actuelle (ajout de la carte gen nvidia actuelle et d'un disque SATA supplémentaire) était celle du deuxième trimestre 2015; rien n'a changé en 2017. L'alimentation est une thermaltake de 1000W, et n'a pas de problèmes de chaleur.
Le problème est le suivant: l'écran se fige soudainement et parfois (pas toujours), la souris bouge toujours mais lentement, comme si vous sautiez des coordonnées. Impossible également de changer le tty avec la combinaison de touches de fonction. Mais j'ai été capable de ssh au système à partir de mon netbook alors que j'étais dans cet état; le système est toujours en place, pas vraiment figé.
J'imagine qu'il peut être utile de noter que presque chaque fois (environ 98%, mais pas exactement), cela se produit lors du défilement sur firefox. En fait, au début, je blâmais une version de Firefox 5X qui permettait le multitraitement des onglets. Ce n'était pas le cas, comme je l'ai découvert par la suite; Il y a environ une semaine, j'ai commencé à essayer de déboguer ce problème et j'ai vu les messages suivants:
Mar 27 22:17:39 Buda kernel: [ 1841.918831] irq 16: nobody cared (try booting with the "irqpoll" option)
Mar 27 22:17:39 Buda kernel: [ 1841.918836] CPU: 3 PID: 0 Comm: swapper/3 Tainted: P IOE 4.8.0-41-generic #44~16.04.1-Ubuntu
Mar 27 22:17:39 Buda kernel: [ 1841.918837] Hardware name: Gigabyte Technology Co., Ltd. EX58-UD5/EX58-UD5, BIOS F13 01/10/2012
Mar 27 22:17:39 Buda kernel: [ 1841.918838] 0000000000000086 7b4c75c5fc78db31 ffff8d36d72c3e80 ffffffffaa22e043
Mar 27 22:17:39 Buda kernel: [ 1841.918840] ffff8d36d24e8800 ffff8d36d24e88d4 ffff8d36d72c3ea8 ffffffffa9ee2e23
Mar 27 22:17:39 Buda kernel: [ 1841.918842] ffff8d36d24e8800 0000000000000000 0000000000000010 ffff8d36d72c3ee0
Mar 27 22:17:39 Buda kernel: [ 1841.918844] Call Trace:
Mar 27 22:17:39 Buda kernel: [ 1841.918844] <IRQ> [<ffffffffaa22e043>] dump_stack+0x63/0x90
Mar 27 22:17:39 Buda kernel: [ 1841.918851] [<ffffffffa9ee2e23>] __report_bad_irq+0x33/0xc0
Mar 27 22:17:39 Buda kernel: [ 1841.918852] [<ffffffffa9ee31b7>] note_interrupt+0x247/0x290
Mar 27 22:17:39 Buda kernel: [ 1841.918855] [<ffffffffa9ee0174>] handle_irq_event_percpu+0x54/0x80
Mar 27 22:17:39 Buda kernel: [ 1841.918856] [<ffffffffa9ee01de>] handle_irq_event+0x3e/0x60
Mar 27 22:17:39 Buda kernel: [ 1841.918857] [<ffffffffa9ee38b2>] handle_fasteoi_irq+0xa2/0x160
Mar 27 22:17:39 Buda kernel: [ 1841.918859] [<ffffffffa9e302cd>] handle_irq+0x1d/0x30
Mar 27 22:17:39 Buda kernel: [ 1841.918862] [<ffffffffaa69e05b>] do_IRQ+0x4b/0xd0
Mar 27 22:17:39 Buda kernel: [ 1841.918863] [<ffffffffaa69c142>] common_interrupt+0x82/0x82
Mar 27 22:17:39 Buda kernel: [ 1841.918863] <EOI> [<ffffffffaa5198f8>] ? cpuidle_enter_state+0x128/0x2d0
Mar 27 22:17:39 Buda kernel: [ 1841.918869] [<ffffffffaa519ad7>] cpuidle_enter+0x17/0x20
Mar 27 22:17:39 Buda kernel: [ 1841.918870] [<ffffffffa9ec79fa>] call_cpuidle+0x2a/0x50
Mar 27 22:17:39 Buda kernel: [ 1841.918871] [<ffffffffa9ec7dde>] cpu_startup_entry+0x29e/0x350
Mar 27 22:17:39 Buda kernel: [ 1841.918874] [<ffffffffa9e518b1>] start_secondary+0x151/0x190
Mar 27 22:17:39 Buda kernel: [ 1841.918875] handlers:
Mar 27 22:17:39 Buda kernel: [ 1841.918878] [<ffffffffaa465fd0>] usb_hcd_irq
Mar 27 22:17:39 Buda kernel: [ 1841.918879] Disabling IRQ #16
La chose est à propos de l'IRQ 16 étant désactivé. J'ai vérifié ce qui pourrait être utilisé avec IRQ 16:
:~$ lspci -v | grep IRQ
Flags: fast devsel, IRQ 12
Flags: bus master, fast devsel, latency 0, IRQ 16
Flags: bus master, medium devsel, latency 0, IRQ 16
Flags: bus master, medium devsel, latency 0, IRQ 21
Flags: bus master, medium devsel, latency 0, IRQ 18
Flags: bus master, medium devsel, latency 0, IRQ 18
Flags: bus master, fast devsel, latency 0, IRQ 30
Flags: bus master, fast devsel, latency 0, IRQ 24
Flags: bus master, fast devsel, latency 0, IRQ 25
Flags: bus master, fast devsel, latency 0, IRQ 26
Flags: bus master, fast devsel, latency 0, IRQ 27
Flags: bus master, medium devsel, latency 0, IRQ 23
Flags: bus master, medium devsel, latency 0, IRQ 19
Flags: bus master, medium devsel, latency 0, IRQ 18
Flags: bus master, medium devsel, latency 0, IRQ 23
Flags: bus master, 66MHz, medium devsel, latency 0, IRQ 19
Flags: medium devsel, IRQ 7
Flags: bus master, 66MHz, medium devsel, latency 0, IRQ 19
Flags: bus master, fast devsel, latency 0, IRQ 31
Flags: fast devsel, IRQ 17
Flags: bus master, fast devsel, latency 0, IRQ 17
Flags: bus master, fast devsel, latency 0, IRQ 18
Flags: bus master, fast devsel, latency 0, IRQ 28
Flags: bus master, fast devsel, latency 0, IRQ 29
Flags: bus master, medium devsel, latency 32, IRQ 18
Et le détail des deux périphériques utilisant IRQ 16 est le suivant:
00:03.0 PCI bridge: Intel Corporation 5520/5500/X58 I/O Hub PCI Express Root Port 3 (rev 12) (prog-if 00 [Normal decode])
Flags: bus master, fast devsel, latency 0, IRQ 16
Bus: primary=00, secondary=01, subordinate=01, sec-latency=0
I/O behind bridge: 0000b000-0000bfff
Memory behind bridge: f9000000-faffffff
Prefetchable memory behind bridge: 00000000d0000000-00000000efffffff
Capabilities: <access denied>
Kernel driver in use: pcieport
Kernel modules: shpchp
00:1a.0 USB controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #4 (prog-if 00 [UHCI])
Subsystem: Gigabyte Technology Co., Ltd Motherboard
Flags: bus master, medium devsel, latency 0, IRQ 16
I/O ports at ff00 [size=32]
Capabilities: <access denied>
Kernel driver in use: uhci_hcd
Donc ... j'ai essayé de résoudre ce "conflit" d'IRQ en modifiant les paramètres du BIOS (les options d'assignation d'IRQ n'ont pas été trouvées) ou en blacklistant les modules du noyau ("shpchp", car j'utilise les contrôleurs USB et PCIE) sans Succès.
Ensuite, j'ai commencé à essayer les paramètres de démarrage du noyau. Le premier essai utilisait l'option "irqpoll", l'erreur suggérée. Cela n'a rien résolu, et a également commencé à voir ces autres messages:
Mar 26 14:17:23 Buda kernel: [ 1988.976483] hpet1: lost 9599 rtc interrupts
Mar 26 14:18:51 Buda kernel: [ 2076.378021] hpet1: lost 9600 rtc interrupts
Mar 26 14:20:11 Buda kernel: [ 2156.670873] hpet1: lost 9600 rtc interrupts
Mar 26 14:21:33 Buda kernel: [ 2238.533442] hpet1: lost 9599 rtc interrupts
Mar 26 14:22:17 Buda kernel: [ 2282.293272] hpet1: lost 9600 rtc interrupts
Mar 26 14:23:06 Buda kernel: [ 2331.292559] hpet1: lost 9600 rtc interrupts
Mar 26 14:24:42 Buda kernel: [ 2427.306337] hpet1: lost 9600 rtc interrupts
Googling around, j'ai trouvé et essayé plusieurs autres options de démarrage, le tout sans succès. Actuellement, j'utilise le système avec "acpi = off" et c'est la première option qui "résout" le "conflit" d'IRQ, car le seul périphérique utilisant IRQ16 est le contrôleur USB. mais j'ai perdu 4 cœurs de processeur en faisant cela (je n'en vois que 4 sur 8 pour le moment) et je ne sais pas quoi d'autre je désactive également (activé "acpi = off" il y a quelques heures à peine).
J'ai blâmé firefox, puis les pilotes nvidia, puis j'ai attendu un nouveau noyau + pile xorg ... rien n'y fait. Je peux travailler pendant des heures avec des tâches de traitement vidéo ou de données volumineuses, ou même jouer à des jeux AAA sur ce système sans problèmes, puis aller voir vos vidéos ou lire les actualités et obtenir un gel du système sans problème de processeur ou de chaleur. Cela peut également arriver (et les dernières semaines se passe souvent) juste après le démarrage, lorsque je lance Thunderbird et firefox. Aucun message d'erreur d'application dans le journal système, pas de crash, juste ce soudain IRQ trucs.
Je suis ici pour demander de l'aide pour diagnostiquer cela. Je ne comprends pas parfaitement toutes les données que je recueille et les domaines dans lesquels je dois chercher. Y at-il quelqu'un avec de l'expérience sur des problèmes de ce genre? Que puis-je faire pour résoudre ce problème?
Merci d'avance.
Quelques semaines après avoir posté mon problème, j'ai découvert qu'il s'agissait d'un problème matériel.
Je ne sais pas si c'était ma carte vidéo ou une fente de mémoire, mais ce n'était tout simplement pas bien connecté, un peu lâche. Une routine de nettoyage commune l'a corrigé.
Cela dit, si vous rencontrez un problème similaire, vous pouvez le vérifier également, mais si vous n’êtes pas aussi chanceux que j’étais, j’ai bien peur que ce soit également un problème matériel défectueux.