web-dev-qa-db-fra.com

Qu'est-ce qui cause cela? pcieport 0000: 00: 03.0: Erreur de bus PCIe: AER / Bad TLP

Je vois des messages d'erreur comme ceux-ci ci-dessous:

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

Celles-ci entraîneront une dégradation des performances même si elles ont (jusqu'à présent) été corrigées. De toute évidence, ce problème doit être résolu. Cependant, je ne trouve pas grand-chose à ce sujet sur Internet. (Peut-être que je cherche au mauvais endroit.) Je n'ai trouvé que quelques liens que je posterai ci-dessous.

Quelqu'un en sait-il plus sur ces erreurs?

Est-ce la carte mère, le Samsung 950 Pro ou le GPU (ou une combinaison de ceux-ci)?

Le matériel est: Asus X99 Deluxe II Samsung 950 Pro NVMe dans le M2. emplacement sur le mb (qui partage le port PCIe 3). Rien d'autre n'est branché sur le port PCIe 3. Un GeForce GTX 1070 dans le CPU PCIe slot 1 Core i7 6850K

Quelques liens que j'ai trouvés mentionnent le même matériel (X99 Deluxe II mb et Samsung950 Pro). J'utilise Arch Linux.

Je ne trouve pas la chaîne "8086: 6f08" dans journalctl ou ailleurs que j'ai pensé rechercher jusqu'ici.

message d'erreur étrange avec nvme ssd (Bad TLP): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe: votre carte lutte-t-elle silencieusement avec les retransmissions TLP? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080 Lancer des erreurs de bus PCIe TLP incorrectes - Forums GeForce https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

pilotes - erreur PCIe dans le journal dmesg - Ask Ubuntu https://askubuntu.com/questions/643952/pcie-error-in-dmesg-log

780Ti X99 hard lock - PCIE errors - NVIDIA Developer Forums https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/

23
MountainX

Je peux donner au moins quelques détails, même si je ne peux pas expliquer complètement ce qui se passe.

Comme décrit par exemple ici , le CPU communique avec le contrôleur de bus PCIe par paquets de couche transaction (TLPs). Le matériel détecte les pannes et le noyau Linux le signale sous forme de messages.

L'option noyau pci=nommconf désactive l'espace de configuration PCI mappé en mémoire, qui est disponible sous Linux depuis le noyau 2.6. En gros, tous les périphériques PCI ont une zone qui décrit ce périphérique (que vous voyez avec lspci -vv), et la méthode initiale pour accéder à cette zone implique de passer par des ports d'E/S, tandis que PCIe permet de mapper cet espace à la mémoire pour un accès plus simple.

Cela signifie que dans ce cas particulier, quelque chose va mal lorsque le contrôleur PCIe utilise cette méthode pour accéder à l'espace de configuration d'un périphérique particulier. Il peut s'agir d'un bug matériel dans le périphérique, dans le contrôleur racine PCIe de la carte mère, dans l'interaction spécifique de ces deux, ou autre chose.

En utilisant pci=nommconf, l'espace de configuration de tous les périphériques sera accessible de la manière d'origine, et la modification des méthodes d'accès contourne ce problème. Donc, si vous voulez, c'est à la fois le résoudre et le supprimer.

28
dirkt

Ajout de l'option de ligne de commande du noyau pci=nommconf a résolu le problème pour moi. Par conséquent, je suppose que le problème est lié à la carte mère. Cela se produit sur tous mes ordinateurs équipés de la carte mère X99. Cela ne se produit pas sur les systèmes Z170 ou tout autre matériel que je possède.

3
MountainX

Essayez ces étapes:

  1. cp /etc/default/grub ~/Desktop
  2. Modifier grub. Ajouter pci=noaer au bout du GRUB_CMDLINE_LINUX_DEFAULT. La ligne sera comme ceci:

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. Sudo cp ~/Desktop/grub /etc/default/

  4. Sudo update-grub
  5. Redémarrer maintenant
3
Ehtesham

J'obtiens les mêmes erreurs (Bad TLP associé au périphérique 8086: 6f08). J'ai X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti. Ces problèmes semblent être associés au chipset X99 et au périphérique M.2, comme Samsung Pro.

La carte mère X99 Deluxe II partage la bande passante entre l'emplacement PCIE16_3 et M.2/U.2. Suite au commentaire de @Nic, dans le BIOS, j'ai changé la configuration des périphériques embarqués | Bande passante U.2_2 d'Auto à U.2_2. Cela a résolu le problème pour moi.

2
user1759557

J'ai changé la configuration de l'emplacement PCIE16_3 dans le BIOS sur mon x99-E pour qu'elle soit statique en mode x8 au lieu d'auto qui est par défaut pour la prise en charge des périphériques M.2. Fonctionne bien maintenant sans erreurs TLP sur mes deux cartes 1070GTX connectées via des cartes d'extension PCIe 1x à 16x.

Je n'ai pas utilisé le port 16_3 en premier, déplacé vers cet emplacement pour tester, mais j'avais toujours des problèmes avant de changer de bios. Modification du paramètre bsleep pour toutes les cartes à 30 dans la configuration du mineur.

Avant le changement, j'avais le journal du noyau contenant des défauts. A également essayé de powercycle système avant et après le changement. Semble être assez persistant.

2
Nic

Cherchez dans votre manuel de la carte mère "AER". Vous pouvez tuer la source du problème en corrigeant l'incompatibilité spécifique ou en désactivant complètement AER. N'utilisez ceci que si tous les spams d'erreur concernent des erreurs corrigées, sinon vous pourriez couvrir un problème réel.

2
N3V3N