Je suis dans un environnement qui contient plusieurs serveurs Supermicro équipés de Adaptec et LSI Megaraid contrôleurs de raid matériel. Ces contrôleurs contiennent des modules de cache sauvegardés par batterie pour renforcer les performances d'écriture et protéger les données en transit.
Un problème de support fréquent est une défaillance de la batterie du contrôleur RAID. Ceci déplace le tableau de Récupération de l'écriture à en mode écriture . Il existe clairement un impact négatif sur la performance que le système fonctionne avec une vitesse d'écriture dégradée. Cela persiste jusqu'à ce qu'une fenêtre de temps d'arrêt puisse être établie pour alimenter le système et remplacer la batterie.
C'est une opération très routine pour nous; presque hebdomadaire sur plusieurs milliers de serveurs physiques ... Nous avons même des stations de charge en place pour préparer des batteries de remplacement afin que peuvent être échangés sans cycle de charge .
Peut-être que je suis gâté par une longue histoire avec des serveurs HP ProLiant et contrôleurs Raid Smart Array , mais HP Systems avait généralement une durée de vie de la batterie de 4 à 6 ans. Ils ont finalement éliminé l'utilisation de piles RAID autour de 2009. Ils ont été remplacés par des modules de mémoire à dos SuperCapacitor (cache d'écriture sauvegardée par flash ou FBWC) et ne nécessitent pas de remplacement, d'élimination ou d'un long cycle de charge initial.
Depuis que je vois que les défaillances de la batterie Adaptec et LSI contrôleur se produisent parfois sur des systèmes qui ont été en service inférieur à 12 mois, je me demande si cela est courant dans autres environnements.
Si cela est courant, comment d'autres environnements de serveur de gros fonctionnent-ils?
littérature de produits LSI décrivant une batterie de nouvelle génération pouvant durer plus longtemps que 1 an.
Server HP ProLiant DL585 G2 avec 1000+ jours de disponibilité et une batterie RAID heureuse ...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK
Je soupçonne que vos supermicros sont brisés d'une manière ou d'une autre - éventuellement les batteries surchauffe. Le SISIS le plus récent signalerait la température via MegaCli - vous voudrez peut-être surveiller cette valeur sur les serveurs qui nécessitait du remplacement.
root@Host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL
BBU status for Adapter: 0
BatteryType: BBU
[...]
Temperature: 41 C
J'ai vu quelques systèmes Dell et Fujitsu avec des contrôleurs BBU LSI, aucun d'entre eux n'avait de remplacement annuel de batterie (sauf que vous avez vissé l'emballage par des décharges profondes). La durée de vie typique est d'environ 3 à 5 ans.
Mon expérience avec des versions IBM des plates-formes LSI sur quelques centaines d'installées est que la batterie moyenne fait à peine 2 ans et la supercap n'est pas meilleure, dont certaines peuvent être corrigées avec une mise à jour du micrologiciel, mais LSI ne l'a pas fait droit. J'ai eu environ 75% de défaillances Supercap au cours des 2 premières années.
La vie moyenne de la batterie devrait être de 3 à 5 ans. Et n'oubliez pas que FBWC basé sur Flash échoue également. Je ne sais pas pourquoi/comment, mais nous les remplaçions régulièrement sur nos serveurs HP. Je devrais durer plus longtemps que la batterie, mais je n'ai pas de statistiques de nos serveurs individuels.
Le moyen standard d'empêcher les effets de la batterie défaillante et l'apprentissage de la batterie est d'avoir plusieurs batteries. C'est ainsi que le stockage HP (comme HP Eva) l'a. Vous avez 2 batteries à chaud et tandis que l'une est faible ou être remplacée, le contrôleur fonctionne avec le reste. Je ne suis sûr que s'il est possible d'avoir plusieurs piles connectées à SmartArray, mais hpacucli
_ diag
Sortie suggère qu'il devrait être pris en charge:
Battery 1 firmware is up to date. Battery 2 not present. Battery 3 not present. Battery Status: Battery 1 Battery 2 Battery 3 --------------- --------- --------- --------- Present: YES NO NO Responding: YES N/A N/A PIC Revision: 52 . . Status: 0x80 . . Extra Status: 0x01 . . Enabled: FALSE . . Charging: FALSE . . Good: TRUE . . Open: FALSE . . Shorted: FALSE . . Sample Err: FALSE . . Control: 0x00 . . Load Current: (0x70) 24.6mA . . Per Memory Chip: 4920uA . . Voltage: (0xae) 5640mV . . Capacity: 100% . . Depletion count: 0x00 . .