web-dev-qa-db-fra.com

Quelque chose brûle dans la salle des serveurs; comment puis-je identifier rapidement ce que c'est?

L'autre jour, nous remarquons une terrible odeur de brûlé sortant de la salle des serveurs. Pour faire court, il a fini par être l'un des modules de batterie qui brûlait dans l'unité UPS, mais il a fallu quelques bonnes heures avant de pouvoir le comprendre. La principale raison pour laquelle nous avons pu le comprendre est que l'écran de l'onduleur a finalement montré que le module devait être remplacé.

Voici le problème: toute la pièce était remplie d'odeur. Faire un test de reniflement a été très difficile car l'odeur avait tout infiltré (sans oublier qu'elle nous faisait étourdis). Nous avons presque par erreur supprimé notre serveur de base de données de production car c'est là que l'odeur était la plus forte. Les signes vitaux semblaient corrects (les températures du processeur montraient 60 degrés C et les vitesses des ventilateurs étaient correctes), mais nous n'étions pas sûrs. Il se trouve que le module de batterie qui a brûlé était à peu près à la même hauteur que le serveur sur le rack et à seulement 3 pieds de distance. Si cela avait été une véritable urgence, nous aurions misérablement échoué.

De façon réaliste, les chances que le matériel serveur réel soit en train de brûler est un événement assez rare et la plupart du temps, nous regarderons l'onduleur le coupable. Mais avec plusieurs racks avec plusieurs équipements, cela peut rapidement devenir un jeu de devinettes. Comment détermine-t-on rapidement et avec précision quelle pièce d'équipement brûle réellement? Je me rends compte que cette question dépend fortement des variables d'environnement telles que la taille de la pièce, la ventilation, l'emplacement, etc., mais toute entrée serait apprécié.

453
Chad Harrison

Le consensus général semble être que la réponse à votre question se décompose en deux parties:

Comment trouvons-nous la source de la drôle d'odeur brûlante?

Vous avez assez bien compris le "Comment":

  • Le "test Sniff"
  • Rechercher la fumée/brume visible
  • Parcourez la pièce avec une caméra thermique (IR) pour trouver des points chauds
  • Vérifiez les panneaux de surveillance et de périphérique pour les alertes

Vous pouvez améliorer vos chances de trouver rapidement le problème de plusieurs façons - une surveillance améliorée est souvent la plus simple. Quelques questions à se poser:

  • Recevez-vous des alertes de température et de santé de votre équipement?
  • Vos systèmes UPS signalent-ils des défauts à votre système de surveillance?
  • Recevez-vous des alarmes de courant de votre équipement de distribution électrique?
  • Les détecteurs de fumée dans la pièce relèvent-ils du système de surveillance? (et peuvent-ils? )

Quand faut-il dépanner ou frapper le Big Red Switch?

C'est une question plus intéressante.
Frapper le gros interrupteur rouge peut coûter très cher à votre entreprise: les rejets d'agents propres peuvent coûter des dizaines de milliers de dollars, et les coûts de panne/récupération après une mise hors tension d'urgence (EPO, "laisser tomber la pièce") peut être dévastateur.
Vous ne voulez pas faire tomber un centre de données car un condensateur dans une alimentation électrique a sauté et a fait sentir la pièce.

À l'inverse, un incendie dans une salle de serveurs peut coûter à votre entreprise ses données/équipements et, plus important encore, la vie de son personnel.
Le dépannage "cette drôle d'odeur de brûlé" ne devrait jamais avoir la priorité sur la sécurité, il est donc important d'avoir des règles claires sur le dépannage des conditions de "pré-feu".

Les directives qui suivent sont mes limites personnelles que j'applique en l'absence (ou en plus) de toute autre procédure/règle clairement définie - elles ont servi bien et ils peuvent vous aider, mais ils pourraient tout aussi bien me faire tuer ou renvoyer demain, alors appliquez-les à vos risques et périls.

  1. Si vous voyez de la fumée ou du feu, laissez tomber la pièce
    Cela devrait aller de soi, mais disons-le quand même: s'il y a un incendie actif (ou de la fumée indiquant qu'il y en aura bientôt), vous évacuez la pièce, coupez le courant et déchargez le système d'extinction d'incendie.
    Des exceptions peuvent exister (faire preuve de bon sens), mais c'est presque toujours la bonne action.

  2. Si vous procédez à un dépannage, faites toujours participer au moins une autre personne
    C'est pour deux raisons. Tout d'abord, vous ne voulez pas vous promener dans un centre de données et tout à coup avoir un rack dans la rangée que vous descendez et personne ne sait que vous y êtes. Deuxièmement, l'autre personne est votre bilan de santé sur le dépannage par rapport à la suppression de la pièce, et si vous appelez le Big Red Switch, vous avez l'avantage d'avoir une deuxième personne d'accord avec la décision (aide à éviter les aspects limitant la carrière d'une telle décision si quelqu'un la remet en question plus tard).

  3. Prenez des mesures de sécurité prudentes lors du dépannage
    Assurez-vous de toujours avoir un chemin d'évacuation (une extrémité ouverte d'une rangée et un chemin dégagé vers une sortie).
    Gardez quelqu'un en poste à l'OEB/déclencheur d'extinction d'incendie.
    Emportez un extincteur avec vous (Halon ou autre agent nettoyant, s'il vous plaît).
    Rappelez-vous la règle n ° 1 ci-dessus.
    En cas de doute, quittez la pièce . Prenez soin de votre respiration: utilisez un respirateur ou un masque à oxygène. Cela pourrait sauver votre santé en cas d'incendie chimique.

  4. Fixez une limite et respectez-la
    Plus précisément, définissez deux limites:

    • Condition ("A quel point est-ce que je vais laisser cela empirer?"),
    • Heure ("Combien de temps vais-je continuer à essayer de trouver le problème avant qu'il ne soit trop risqué?").

    Les limites que vous définissez peuvent également être utilisées pour permettre à votre équipe de commencer un arrêt ordonné de la zone affectée, donc lorsque vous [~ # ~] faites [~ # ~] tirez le pouvoir que vous ne plantez pas un tas de machines actives, et votre temps de récupération sera beaucoup plus court, mais rappelez-vous que si l'arrêt ordonné prend trop de temps, vous devrez peut-être laisser quelques systèmes planter au nom de la sécurité .

  5. Faites confiance à votre instinct
    Si vous êtes préoccupé par la sécurité à tout moment, désactivez le dépannage et nettoyez la pièce.
    Vous pouvez ou non laisser tomber la pièce en fonction d'une sensation d'intestin, mais se regrouper à l'extérieur de la pièce en toute sécurité (relative) est prudent.

S'il n'y a pas de danger imminent, vous pouvez choisir de faire appel au service d'incendie local avant de prendre des mesures drastiques comme un EPO ou une libération d'agent propre. (Ils peuvent vous dire de le faire de toute façon: leur mandat est de protéger les gens, puis les biens, mais ils sont évidemment les experts en matière de lutte contre les incendies, vous devriez donc faire ce qu'ils disent!)

Nous en avons parlé dans les commentaires, mais cela pourrait aussi être résumé dans une réponse - @DeerHunter, @Chris, @Sirex, et bien d'autres ont contribué à la discussion

384
voretaq7

Une caméra à imagerie thermique pourrait faire le travail et vous permettre d'identifier où se trouve la surchauffe. Un appareil comme celui-ci vous permettrait également d'identifier l'origine d'un incendie ou d'une combustion dans une pièce enfumée.

183
ddalcero

Vous ne faites rien de ces choses qui ont été dites. Vous quittez l'environnement dangereux car tout ce qui est pompé dans toute la pièce est dangereux pour la santé et peut vraiment gâcher vos poumons. S'il y a une odeur âcre de quelque chose qui brûle dans la pièce que vous ne pouvez pas trouver, appelez le (911 | 112 | 999 | quel que soit le numéro d'urgence correspondant à votre juridiction) et laissez le feu (compagnie | département | brigade) régler le problème pendant qu'ils suis sur l'air en bouteille.

Les pièces d'ordinateur contiennent toutes sortes de produits chimiques intéressants, y compris mercure , cadmium , plomb , et beaucoup de plastiques dans les boîtiers. Notez que tous les liens que j'ai créés expliquent comment des expositions de faible niveau peuvent causer des dommages durables ou même la mort rapide. Il s'agit d'un environnement qui peut être immédiatement dangereux pour la vie et la santé .

... donc vraiment, si quelque chose brûle, ne passez pas des heures à renifler les fumées. Si vous ne pouvez pas l'identifier et agir immédiatement pour le contenir, sortez.

139
Jeff Ferland

Si vous disposiez d'une surveillance appropriée sur l'onduleur (généralement via SNMP), l'unité elle-même aurait dû sonner les cloches de votre système de surveillance. Si ce n'est pas le cas, parlez-en à votre fournisseur. Il a mal fonctionné ou votre système de surveillance n'est pas correctement configuré.

Si quelque chose d'actif brûle réellement, il devrait s'en plaindre d'une certaine manière, ou simplement être hors du réseau, ce qui devrait également déclencher une alarme.

Si c'est quelque chose comme un véritable rail d'alimentation brûlant à travers l'isolation, et que ce n'est pas sur une PDU intelligente, alors nous revenons à votre question d'origine, qui est "comment puis-je trouver une chose qui brûle?" Et je pense que la bonne réponse est "Frappez l'OEB et comprenez-le. Vos serveurs de production ne sont probablement pas assez importants pour risquer des vies."

76
mfinni

C'est une de ces situations où

XKCD Die Hard sysadmin

ne s'applique pas, vous devez appeler un professionnel

Firefighter in protective gear

Tout le reste est tout simplement stupide.

43
user9517

En tant que personne dont la carrière antérieure était en tant que technologie électronique, j'ai de l'expérience avec des "odeurs brûlantes" qui n'étaient pas des incendies. Ce n'est pas rare.

Je ne fermerais pas un centre de données pour une odeur. La fumée est une autre affaire, quelque chose brûle vraiment (généralement, mais un condensateur au tantale de la taille d'un pois peut aussi remplir une pièce de fumée). C'est incroyable combien l'odeur d'un composant frit dans une alimentation électrique peut faire.

Un thermomètre TIC ou IR (un outil utile et beaucoup moins cher qu'un TIC) ne le montrerait pas nécessairement car le composant ne génère pas beaucoup de chaleur et se trouve dans un boîtier. Mais vérifiez que les appareils ne fonctionnent pas, utilisez vos outils de surveillance. Pour une odeur comme ça, alors 95% du temps, ce sera une alimentation affectant les performances de l'ensemble de l'appareil.

40
Malcolm

J'aime les réponses à l'imagerie infrarouge ou au thermomètre, mais ce qui pourrait peut-être aussi aider est un véritable "détecteur d'odeur". Après tout, ce qui a déclenché votre prudence, c'est l'odeur. La fumée, la chaleur, les infrarouges, etc. sont tous des substituts.

Quelque chose comme celui-ci: from Shinyei . Personnellement, je ne les ai jamais utilisés ni même vu utilisés dans un centre de données. Mais au moins théoriquement, cela devrait être un outil soigné. Si vous avez de l'argent à dépenser pour ce gadget, c'est.

http://www.sca-shinyei.com/odormeter ou http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Il vous donne une résistance aux odeurs ainsi qu'une classification. Il devrait donc être possible de se concentrer sur l'odeur. Le diable est dans les détails bien sûr. Quelle est sa sensibilité, masquant les odeurs de fond parasites, etc.

Un avantage par rapport aux mesures purement basées sur la température est que souvent l'odeur se produit à un point ou à un seuil beaucoup plus précoce. Ou si le composant surchauffé est caché par un corps/un câblage caché, etc., il est plus facile de détecter les molécules qui s'échappent qu'un point chaud en visibilité directe.

Une autre situation est une odeur non liée à la chaleur. Nous avons déjà eu une fuite dans le circuit de refroidissement et les odeurs de liquide de refroidissement étaient également particulières. Je n'entrerai même pas dans le cas désormais ancien d'un rongeur mort dans les conduits. :)

J'ai été surpris de la sensibilité de ces capteurs. Apparemment, H2S/mercaptans, etc. (coupables habituels) sont détectables à des niveaux inférieurs à ppm.

enter image description here

19
curious_cat