web-dev-qa-db-fra.com

Est-il sécuritaire de garder le GPU sur une utilisation de 100% pendant une très longue période?

J'effectue actuellement des chiffres numériques à l'aide de Cuda sur mon GPU, une NVIDIA GeForce GTX 1050 TI. Ces opérations prennent souvent des mois à compléter et pendant cette période où je laisse mon PC sur 24 heures sur 24 et 7j/7.

Est-ce que ça fait si sûr? Est-ce que je risquais une surchauffe potentielle de ma carte graphique pouvant entraîner un feu de maison?


Notez que le PC est correctement ventilé et il n'y a pas d'obstruction à son flux d'air.

51
Klangen

Réponse courte: Cela devrait être sûr sur du matériel bien conçu.

Réponse longue: le GPU (et son environnement logiciel: pilotes, systèmes d'exploitation, démons) sont conçus pour protéger de la surchauffe - le GPU devraient d'abord tourner les ventilateurs sur un régime de régime plus élevé, si cela ne peut pas garder une température de sécurité, le GPU accélère la charge de travail (généralement en réduisant la fréquence d'horloge). Cela assurera un profil de chaleur qui n'endommagera pas le GPU et donc pas le PC (ni la salle).

CAVEZER: Il existe des cartes graphiques de knock-off bon marché, où le firmware est spécialement conçu pour sacrifier la sécurité des performances. Bien que je ne pense pas que ceux-ci existent pour un 1050, je ne suis pas sûr à 100%. Vous devriez également préférer les pilotes NVIDIA téléchargés à partir de leur site Web sur des pilotes de fournisseurs "optimisés", ce qui pourrait faire la même chose.

59
Eugen Rieck

n feu de maison est extrêmement improbable, mais la durée de vie de la carte peut être réduite.

La surchauffe à long terme de la puce GPU ne va probablement pas commencer un incendie. La puce peut se détériorer et commencer une mauvaise conduite ou mourir complètement, mais les frites de silicium ne sont pas trop inflammables. Les mauvaises choses se produisent généralement lorsque les condensateurs électrolytiques échouent et explosent, mais ceux-ci ne seront pas soumis à une surchauffe simplement parce que la carte fait beaucoup de crunching et que vous espérez aussi que vous disposez également d'un étui de PC en métal pour contenir les éclaboussures chaudes résultant de ces échecs. .

Cependant, les parties de qualité des consommateurs ne sont généralement pas conçues pour des charges à long terme 24/7. Il est donc assez probable que la carte mourra plus tôt que si elle n'était pas soumise à de telles charges. Il est difficile de dire combien tôt sans avoir d'autres statistiques sur un modèle donné. Certaines personnes de l'avocat communautaire HPC en utilisant des GPU de jeu haut de gamme au lieu de pièces spéciales de calcul de HPC, et il semble y avoir un bon sens économique. Bien que les pièces de base meurent en une année environ, il est moins cher de continuer à les remplacer car ils sont plusieurs fois moins chers que l'alternative

11
TooTea

Oui, la carte est susceptible de porter plus tôt si elle est sous charge constante. Aux petites géométries, électromigration est une source importante de défaillances de périphérique et les périphériques seront généralement conçus avec une vie cible spécifique à l'esprit. Cela pourrait être généreux pour un fonctionnement typique (par exemple 5 ans d'opération continue), mais pourrait ne pas supposer que 100% de point de fonctionnement maximum pour tout ce temps. Dès que vous commencez plus tard, vous pouvez vous attendre à ce que cette cible réduise de manière significative. (De même, une charge à seulement 80% serait peut-être doubler la durée de vie due à ce mécanisme de défaillance).

Il existe bien sûr d'autres échecs liés aux composants de course à chaud ou à cyclisme thermique, il s'agit simplement de souligner que l'électronique moderne (et même des produits électroniques de 1980 lorsque mal conçus) peut être suceptible pour "porter".

7
Sean Houlihane

Comme vous l'avez mentionné, la ventilation est bonne, il n'est donc pas nécessaire de s'inquiéter de ce facteur de risque.

Parler du GPU, c'est volonté être porté plus fort que sur le travail de bureau habituel pendant 8 à 16 heures par jour, alors lors de l'utilisation de 100% 24/7/365, c'est Peu probable Il sera capable de travailler pendant 5 à 10 ans et plus. Mais vous devez également considérer que le GPU peut avoir une conception médiocre du système de refroidissement de la GPU elle-même (pas dans l'ensemble du PC), une mauvaise conception globale, des logiciels et des bogues de microprogrammes, une mauvaise qualité de production ou des défauts de production avec une gravité différente. et taux de défaut - des défauts d'instance mono-instance aux massives. Ces facteurs peuvent rendre le chauffage pire, causer une panne de système, une petite durée de vie, un court-circuit ou même pourrait Causer un incendie ou vous rendre électrique frappé. Certains facteurs dépendent du modèle et de la révision, certains sont progressivement fixés avec les mises à jour logicielles/firmware, certaines varient d'un seul élément à l'autre. Mieux vaut choisir des modèles avec une réputation de fiabilité éprouvée avec une révision appropriée (généralement le dernier possible). En outre, il peut avoir une mauvaise influence et interférer mal avec les autres composants, par exemple en générant des bruits de signal électriques/électroniques supplémentaires. En outre, n'oubliez pas le fait que la pâte thermique peut perdre progressivement ses qualités et rendre le refroidissement pire.

Je dois mentionner que la carte graphique n'est pas le seul composant à prendre en compte, car un PC est un système complexe et son travail réussi dépend de l'état de plusieurs composants. Tous les petits, même si inutiles et inutiles et inutiles, mauvais composant, même le lecteur de disquette ou quelques lumières décoratives Peuvent enfreindre le PC ou causer les problèmes proches de ceux mentionnés sur le GPU. Par exemple, un mauvais bouton ON/OFF peut provoquer une fermeture ou un redémarrage. Et maintenant plus profond des composants clés:

  • CPU: Dans votre cas d'utilisation, il est probable que l'on ne soit probablement pas plus difficile que lors de l'utilisation quotidienne ordinaire et il est probable que vous n'avez absolument pas besoin d'overclocker. De nos jours, les processeurs contiennent tous les mécanismes défensifs tels que l'arrêt de l'étranglement et de l'urgence et sont considérés comme assez durables. Il suffit d'oublier la pâte de refroidisseur et thermique et c'est très improbable Pour être le point le plus faible du système.
  • Carte mère: presque identique à la CPU, mais il y a une forte utilisation de PCI-E et peut-être une utilisation intensive des disques, des réseaux et des périphériques, mais mieux choisir des modèles éprouvés.
  • RAM: C'est extrêmement improbable Pour casser, ce risque n'est donc pas digne d'être inquiet. Il suffit d'utiliser un bon.
  • Disques: Dans les tâches qui s'appuient sur l'utilisation du disque (comme minification de données, le traitement des données, l'apprentissage d'un réseau de neurones avec les données sur le disque) peuvent devenir un point faible de fiabilité - dans les serveurs et les centres de données, il est assez courant de changer A disque en 1-3 ans et très rarement "vivant" 5 ans ou plus. Vous pouvez utiliser des systèmes RAID 1 et de sauvegarde pour augmenter la fiabilité de l'utilisation du 24/7/365 (RAID 0 Sacrifications Fiabilité des performances, d'autres raids peuvent prendre beaucoup de temps pour restaurer les données. Aussi raid! = Sauvegardée, alors ne néglige pas avec sauvegardes, si nécessaire). Lorsque vous utilisez SSD, les opérations, qui sont lourdes sur l'écriture de disque peuvent drainer la limite écrite des térabytes et rendre le disque inutile - préfère TBW sur d'autres caractéristiques. RAID 1 avec SSDS peut défendre le système contre des défaillances soudaines d'un disque, mais ne vous aide pas avec le taux de TBW. HDD ou SSD - dépend de vos besoins, de vos besoins et de vos besoins. Mieux vaut choisir des modèles avec une réputation de fiabilité éprouvée avec une révision appropriée (généralement le dernier possible).
  • Bloc d'alimentation: est fortement utilisé par une carte graphique et est donc porté plus intensément - il est donc préférable de choisir des modèles avec une réputation de fiabilité éprouvée avec une révision appropriée (généralement la dernière possible) et la puissance d'au moins 1,5 fois la consommation globale ou au moins 2x-2.5x plus, que les principaux consommateurs d'énergie (comme le GPU et la CPU). Assurez-vous d'utiliser un bon câble CA 220V, en raison de les câbles AC Bad 220V sont susceptibles de provoquer un court-circuit, un appareil électrique ou une brûlure électrique (peut simplement faire de la fumée et se détruire ou définir un vrai feu)! Englisons
  • Ventilateurs: Bien que cela puisse sembler insignifiant, ils sont cruciaux dans ces cas d'utilisation et leur échec est un gros problème pour les systèmes 24/7/365. Généralement, installez-les autant que vous le pouvez, mais également considérer que la taille - les plus gros sont plus silencieuses et plus efficaces, tandis que les plus petits dans certains cas peuvent être installés dans une quantité plus grande, de sorte que l'échec d'un seul ventilateur sera moins douloureux pour le Système - Le choix est à vous.
  • Systèmes de refroidissement exotiques: le refroidissement par eau est considéré comme compact et efficace dans des systèmes overclockés à hauts chauffants, mais une fuite d'eau peut causer des dommages graves aux composants de PC. Les systèmes d'azote congelés sont extrêmement efficaces mais susceptibles de ne pas être nécessaires, mais sont plus volumineux et coûteux.

Les systèmes et les composants professionnels de l'entreprise 24/7/365 sont mieux conçus pour cela et disposent d'une réserve sur tous les composants, même des processeurs et des bioses et de remplacer à chaud de composants ou de modules, mais même ils ne comportent pas 100% de disponibilité (fermer , mais pas égal), les cartes Nvidia professionnelles sont plus rapides pour Cuda (en particulier les réseaux de neurones), mais je ne pense pas que ce soit votre cas d'utilisation.

L'assemblage du système n'est pas moins important que les composants eux-mêmes. N'oubliez pas d'une seule action, ne faites pas de problème, ne faites pas un PC comme un stupide et tout doit être bien.

Assurez-vous qu'aucun logiciel arrête de force, redémarrez le PC ou tuez le processus. Si vous êtes un utilisateur Win10, vous penserez peut-être qu'il n'ya aucun moyen de désactiver entièrement les mises à jour, mais il existe des sollictions et des pièces de logiciels sur le Web pour cela (avertissement: il peut enfreindre le CLUF).

Les périphériques peuvent également causer des problèmes, tels que les composants du PC. Par exemple, une souris mauvaise ou usée peut enregistrer une touche appuyer sur le moment où il n'y a pas de presse.

À propos des circonstances extérieures clés:

  • Électricité: J'espère que l'électricité de votre maison est très fiable et stable, car éteignez l'électricité peut vous faire perdre les résultats de votre travail. Avec des problèmes électriques de courte durée, UPS peut vous aider, mais avec plus de problèmes de longue date, il peut vous donner uniquement de temps pour hiberniser le système ou pour économiser vos progrès correctement.
  • Réseau: Si votre tâche s'appuie sur Internet ou la connexion réseau, vérifiez si les fils/modem/routeur sont OK.

résumant : Il n'y a pas de garantie solide que tout sera bon (littéralement, seule la mort est garantie) et de toute façon que vous devez accepter les risques (ils jamais seront égaux à zéro. ), mais avoir un bon choix de composants, un bon assemblage et ne pas avoir de malchance dans l'achat de composants défectueux vous permet d'utiliser le PC de cette manière avec un risque plus faible, alors l'auteur de la question présumée initialement, à moins que vous ne le feriez depuis des années et des années. et attendez-vous à la fiabilité de 5, 10 ans et plus.

2
bpalij

Est-il sécuritaire de garder le GPU sur une utilisation de 100% pendant une très longue période?

Oui. C'est en fait plus sûr que d'utiliser pour le but recherché, qui joue un jeu de temps en temps.

Le plus d'usure (de l'électronique) provient de contrainte mécanique de la température de changement. Les composants chauffent à des tarifs différents, leurs coefficients de dilatation thermique sont différents, donc chaque chauffage, le cycle de refroidissement entraîne des forces qui tentent de déchirer la carte, entraînant souvent des micro-dommages qui s'accumulent et peuvent éventuellement conduire à une défaillance. Ne soyez pas alarmé, il est censé prendre des décennies. (Contrairement à la FRANCHAIRE 2006 NVIDIA Ordinateur GPUT qui a utilisé une mauvaise soudure afin que les échecs se produisent suffisamment bientôt pour être perceptibles à la durée de vie du composant)

Si vous commencez votre calcul et que vous les gardez à taux constant, il est réellement stressant de la carte, car il se réchauffe puis reste là-bas, sans les cycles thermiques.

Les seules parties qui verront une usure accrue sont les ventilateurs, qui sont généralement faciles à remplacer.

Quant à votre plan sur l'utilisation réelle de 100% - 100% est inefficace. Apprenez de la leçon que les cryptoMiners nous ont appris: comme vous avez omniprésent et sous-tend la carte, les flops descendent, mais la consommation de puissance diminue encore plus. Vous aurez plus de performance par watt. Et encore mieux la vie.

0
Agent_L