web-dev-qa-db-fra.com

Probabilité de défaillance du châssis de lame

Dans mon organisation, nous pensons acheter des serveurs lames - au lieu de serveurs en rack. Bien sûr, les fournisseurs de technologie les font également sonner très bien. Une préoccupation, que j'ai lue très souvent dans différents forums, est qu'il existe une possibilité théorique que le châssis du serveur tombe en panne - ce qui entraînerait par conséquent toutes les lames vers le bas. Cela est dû à une infrastructure partagée.

Ma réaction sur cette probabilité serait d'avoir de la redondance et de deux châssis au lieu d'un (très coûteux bien sûr).

Certaines personnes (y compris par exemple les fournisseurs HP) essaient de nous convaincre que le châssis est très peu susceptible de tomber en panne, en raison de nombreuses redondances (alimentation redondante, etc.).

Une autre préoccupation de mon côté est que si quelque chose tombe en panne, des pièces de rechange pourraient être nécessaires - ce qui est difficile dans notre région (Éthiopie).

Je demanderais donc aux administrateurs expérimentés qui ont géré un serveur lame: quelle est votre expérience? Est-ce qu'ils descendent dans leur ensemble - et quelle est l'infrastructure partagée sensible, qui pourrait échouer?

Cette question pourrait être étendue au stockage partagé. Encore une fois, je dirais que nous avons besoin de deux unités de stockage au lieu d'une seule - et encore une fois, les vendeurs disent que ces choses sont si solides, qu'aucune défaillance n'est attendue.

Eh bien - je peux à peine croire qu'une telle infrastructure critique peut être très fiable sans redondance - mais peut-être pouvez-vous me dire, si vous avez des projets basés sur des lames réussis, qui fonctionnent sans redondance dans ses parties principales (châssis, stockage ... )

En ce moment, nous regardons HP - car IBM semble beaucoup trop cher.

48
ChrisZZ

Il y a une faible probabilité de défaillance complète du châssis ...

Vous rencontrerez probablement des problèmes dans votre établissement avant de subir une panne complète d'un boîtier de lame.

Mon expérience concerne principalement les boîtiers de lames HP C70 et HP C30 . J'ai également géré des solutions de lames Dell et Supermicro. Le vendeur est un peu important. Mais en résumé, l'équipement HP a été stellaire, Dell a été bien et Supermicro manquait de qualité, de résilience et était juste mal conçu. Je n'ai jamais connu d'échecs côté HP et Dell. Le Supermicro a connu de graves pannes, nous obligeant à abandonner la plate-forme. Sur les HP et les Dell, je n'ai jamais rencontré de panne complète du châssis.

  • J'ai eu des événements thermiques. La climatisation est tombée en panne dans une installation de colocalisation envoyant des températures à 115 ° F/46 ° C pendant 10 heures.
  • Surtensions et pannes de ligne: Perte d'un côté d'une alimentation A/B. Pannes d'alimentation individuelles. Il y a généralement six blocs d'alimentation dans mes configurations de lame, donc il y a suffisamment d'avertissement et de redondance.
  • Échecs de serveurs lames individuels. Les problèmes d'un serveur n'affectent pas les autres dans le boîtier.
  • Un incendie dans le châssis ...

J'ai vu une variété d'environnements et j'ai eu l'avantage de l'installer dans des conditions de centre de données idéales, ainsi que dans certains endroits plus difficiles. Côté HP C7000 et C3000, la principale chose à considérer est que le châssis est entièrement modulaire. Les composants sont conçus pour minimiser l'impact d'une défaillance de composant affectant l'ensemble de l'unité.

Pensez-y comme ceci ... Le châssis principal du C7000 est composé de modules de fond de panier avant (passif) et de fond de panier. Le boîtier structurel maintient simplement les composants avant et arrière ensemble et supporte le poids des systèmes. Presque toutes les pièces peuvent être remplacées ... croyez-moi, j'en ai démonté beaucoup. Les principales redondances concernent le ventilateur/refroidissement, l'alimentation et la gestion de réseau. Les processeurs de gestion ( HP Onboard Administrator ) peuvent être couplés pour la redondance, mais les serveurs peuvent fonctionner sans eux.

enter image description here

Boîtier entièrement rempli - vue de face. Les six blocs d'alimentation en bas couvrent toute la profondeur du châssis et se connectent à un assemblage de fond de panier d'alimentation modulaire à l'arrière du boîtier. Les modes d'alimentation sont configurables: par ex. 3 + 3 ou n + 1. Donc, le boîtier a définitivement une redondance d'alimentation. enter image description here

Boîtier entièrement rempli - vue arrière. Les modules de mise en réseau Virtual Connect à l'arrière ont une connexion croisée interne, donc je peux perdre un côté ou l'autre et conserver la connectivité réseau avec les serveurs. Il y a six blocs d'alimentation remplaçables à chaud et dix ventilateurs remplaçables à chaud. enter image description here

Boîtier vide - vue de face. Notez qu'il n'y a vraiment rien dans cette partie du boîtier. Toutes les connexions sont transmises au fond de panier modulaire. enter image description here

Assemblage du fond de panier retiré. Notez les six alimentations pour l'assemblage du fond de panier en bas. enter image description here

Assemblage du fond de panier. C'est là que la magie opère. Notez les 16 connexions de fond de panier distinctes: une pour chacun des serveurs lames. J'ai eu des sockets/baies de serveurs individuels qui échouent sans tuer le boîtier entier ou affecter les autres serveurs. enter image description here

Fond (s) d'alimentation. Unité 3ø en dessous du module monophasé standard. J'ai changé la distribution d'énergie dans mon centre de données et j'ai simplement changé le fond de panier d'alimentation pour faire face à la nouvelle méthode de fourniture d'énergie enter image description here

Dommages au connecteur du châssis. Cette enceinte particulière a été abandonnée lors de l'assemblage, brisant les broches d'un connecteur ruban. Cela est resté inaperçu pendant des jours, ce qui a entraîné le feu du châssis de la lame en marche ... enter image description here

Voici les restes carbonisés du câble ruban midplane. Cela contrôlait une partie de la température du châssis et de la surveillance de l'environnement. Les serveurs lames à l'intérieur ont continué de fonctionner sans incident. Les pièces concernées ont été remplacées à mon gré pendant les temps d'arrêt prévus, et tout allait bien. enter image description here

49
ewwhite

Je gère un petit nombre de serveurs lames depuis huit ans maintenant, et je n'ai toujours pas rencontré de panne à l'échelle du système qui a mis un certain nombre de lames hors ligne. Je me suis vraiment rapproché en raison de problèmes liés à l'alimentation, mais je n'ai pas encore eu de panne à l'échelle du châssis qui ne soit pas attribuable à des sources extérieures.

Votre observation selon laquelle le châssis représente un point de défaillance unique est correcte, bien qu'ils intègrent une grande quantité de redondances ces jours-ci. Tous les systèmes de lames que j'ai utilisés sont alimentés en parallèle par les lames et plusieurs prises réseau passent par des chemins séparés, et dans le cas de plusieurs chemins Fibre Channel de la lame aux ports optiques de l'arrière du rack. Même le système d'information sur le châssis avait plusieurs chemins.

Avec une ingénierie de réseau appropriée (redondante NIC, MPIO pour le stockage), les événements à problème unique sont entièrement capables de survivre. Pendant mon temps avec ces systèmes, j'ai eu les problèmes suivants, dont aucun n'a affecté plus de une lame le cas échéant:

  • Deux blocs d'alimentation tombent en panne dans le rack de lames. Il y avait suffisamment de redondance dans les 4 autres pour supporter la charge.
  • Perte d'une phase pour une alimentation triphasée. Ces fournitures sont rares de nos jours, mais les deux autres phases avaient une capacité suffisante pour supporter la charge.
  • Perte d'une boucle de gestion inter-châssis. C'était comme ça pendant des années avant qu'un technicien de fournisseur lors d'un autre appel ne le remarque.
  • Perdre complètement les boucles de gestion inter-châssis. Nous avons perdu l'accès à la console de gestion, mais les serveurs continuent de fonctionner comme si de rien n'était.
  • Quelqu'un a accidentellement redémarré le fond de panier réseau arrière du rack. Tout dans ce châssis utilisait des cartes réseau redondantes et n'a donc subi aucune interruption de service; tout le trafic s'est déplacé vers l'autre fond de panier.

Le point de TomTom sur le coût est très vrai cependant. Pour atteindre la pleine parité des coûts, votre châssis de lames devra être entièrement chargé et probablement ne pas utiliser de choses spéciales comme les commutateurs de l'arrière du rack. Les porte-lames ont du sens dans les zones où vous avez vraiment besoin de la densité car vous êtes limité par l'espace

20
sysadmin1138

Cette question pourrait être étendue au stockage partagé. Encore une fois, je dirais que nous avons besoin de deux unités de stockage au lieu d'une seule - et encore une fois, les vendeurs disent que ces choses sont si solides, qu'aucune défaillance n'est attendue.

En fait non. Vous inquiétudes jusque-là avaient du sens, cette phrase les met en "lisez les trucs devant vos yeux". HA avec réplication complète est une fonctionnalité d'entreprise connue pour les unités de stockage. Le fait est qu'un SAN (L'unité de stockage est beaucoup plus complexe qu'un châssis de lames qui à la fin n'est qu'un "métal stupide". Tout dans un châssis de lames, à l'exception de certains fonds de panier, est remplaçable - tous les modules etc. sont remplaçables et les lames individuelles SONT autorisées à échouer. Personne ne dit que le centre de la lame en soi donne aux lames une haute disponibilité.

Ceci est très différent d'un SAN qui est censé être à 100% du temps - dans un état cohérent - donc vous avez des choses comme la réplication, etc.

C'EST DIT: surveillez vos chiffres. J'envisage d'acheter des lames depuis un certain temps maintenant et ils n'ont jamais fait de sens financier. Les châssis sont tout simplement trop chers et les lames pas vraiment moins chères que les ordinateurs normaux. Je suggérerais de considérer l'architecture SuperMicro Twin comme alternative.

14
TomTom

Les serveurs lames avec lesquels j'ai eu de l'expérience sont ceux d'IBM. Ces éléments particuliers sont totalement modulaires et il y a beaucoup de redondance intégrée. Donc, si quelque chose va échouer, ce sera l'un des composants comme une alimentation ou un commutateur modulaire, etc. Mais encore une fois, il y a une redondance même dans ceux-ci.

Depuis que je suis impliqué avec les lames IBM, je n'ai jamais vu un échec complet auparavant.

Avec les autres marques, je soupçonne qu'elles seraient construites de la même manière.
Ce serait une bonne idée de parler également à un fournisseur et de faire beaucoup de lecture.
C'est un gros investissement.

4
Matt

Les pannes conduisant à plusieurs pannes de serveurs lames dans le même boîtier sont comparables (en termes de probabilité et de cause) aux pannes conduisant à plusieurs pannes de serveurs dans le même rack.

Configuration initiale pour minimiser les points de défaillance uniques (deux séparées sources d'alimentation CA, chacune pouvant gérer la charge entière, fonctionnant pour séparer les alimentations DC, telles que que l'une ou l'autre moitié peut gérer la charge entière; deux séparés attachements réseau, qui peuvent gérer la totalité de la charge attendue, etc.) et la différence entre quelque chose qui retire toutes les lames d'un châssis ou toutes les Les serveurs 2U dans un rack sont très petits.

1
mpez0

Une préoccupation, que j'ai lue très souvent dans différents forums, est qu'il existe une possibilité théorique que le châssis du serveur tombe en panne - ce qui entraînerait par conséquent toutes les lames vers le bas. Cela est dû à une infrastructure partagée.

En effet! Il y a environ 5 ans, lors de la gestion de deux boîtiers lames HP Proliant de classe p, j'ai rencontré plusieurs fois des problèmes de châssis.

J'ai eu des serveurs lames ne pouvant pas s'allumer, s'ils avaient été éteints (les serveurs ne sont pas souvent éteints, mais cela est devenu un problème très réel pour nous tout de même). J'ai eu des serveurs qui s'éteignaient soudainement et qui ne pouvaient pas être rallumés. Enfin, tous les serveurs s'étaient éteints et ne pouvaient pas se rallumer.

Si je me souviens bien, presque tous les problèmes ont été attribués à des backplanes de mauvaise puissance ou des backplanes de contrôleurs. Nous les avons remplacés plusieurs fois et le message non spécifique et officieux que j'ai reçu des techniciens était qu'ils avaient leur part de problèmes avec cette génération de boîtiers de lames.

J'ai alors décidé que les avantages des serveurs lames ne valaient tout simplement pas le risque, si j'avais quelque chose à dire lors de futurs achats.

Avance rapide vers mon prochain employeur, et mon actuel, d'ailleurs. Ils avaient déjà des boîtiers HP Proliant c-Class en cours d'exécution, donc ma sensation de chaleur tiède pour les lames n'avait pas vraiment d'importance. Au cours des 5 années que j'ai eues avec les boîtiers de classe c, je n'ai jamais rien vécu de semblable à ce que j'ai fait avec la classe p, où un boîtier entier a échoué sur moi. Ils ont fonctionné sans problèmes majeurs.

(Sauf pour le temps où une tempête de pluie a envoyé de la pluie à travers le toit, 4 étages, un petit trou dans le joint de la salle informatique, un câble et dans le châssis)

1
abstrask