J'ai un nouveau système HP ProLiant DL360 G7 qui présente un problème difficile à reproduire. Le serveur se bloque aléatoirement à l'écran " Etalonnage thermique et thermique en cours ... " pendant le processus POST . Cela suit généralement un redémarrage à chaud/redémarrage à partir du système d'exploitation installé.
Le système se bloque indéfiniment à ce stade. L'émission d'une réinitialisation ou d'un démarrage à froid via les commandes d'alimentation de l'OIT 3 fait démarrer le système normalement sans incident.
Lorsque le système est dans cet état, l'interface ILO 3 est entièrement accessible et tous les indicateurs de santé du système sont corrects (tous verts). Le serveur se trouve dans un centre de données à température contrôlée avec des connexions électriques à la PDU. La température ambiante est de 64 ° F/17 ° C. Le système a été placé dans une boucle de test de composants de 24 heures avant le déploiement sans défaillance.
Le système d'exploitation principal de ce serveur est VMWare ESXi 5. Nous avons d'abord essayé 5.0 et plus tard une version 5.1. Les deux ont été déployés via le démarrage PXE et le démarrage. De plus, nous testons avec des installations Windows baremetal et Red Hat Linux.
Les systèmes HP ProLiant disposent d'un ensemble complet d'options BIOS. Nous avons essayé les paramètres par défaut en plus du profil haute performance statique. J'ai désactivé le démarrage écran de démarrage et j'ai juste un curseur clignotant à ce point par rapport à la capture d'écran ci-dessus. Nous avons également essayé certains VMWare "meilleures pratiques" pour le BIOS config. Nous avons vu un avis de HP qui semble indiquer un problème similaire , mais n'a pas résolu notre problème spécifique.
Soupçonnant un problème matériel, j'ai demandé au vendeur d'envoyer un système identique pour une livraison le jour même. Le nouveau serveur était une version entièrement identique à l'exception des disques. Nous avons déplacé les disques de l'ancien serveur vers le nouveau. Nous avons rencontré le même problème de démarrage aléatoire sur le matériel de remplacement.
J'ai maintenant les deux serveurs fonctionnant en parallèle. Le problème frappe au hasard sur des bottes chaudes. Les bottes froides ne semblent pas avoir de problème. J'examine certains des paramètres du BIOS les plus ésotériques comme la désactivation de Turbo Boost ou la désactivation complète de la fonction d'étalonnage de l'alimentation. Je pourrais essayer ces derniers, mais ils ne devraient pas être nécessaires.
Des pensées?
--Éditer--
Détails du système:
Tous les micrologiciels sont à jour depuis la dernière version du Service Pack HP pour ProLiant DVD.
En appelant HP et en parcourant l'interwebz, j'ai vu des mentions d'une mauvaise interaction ILO 3, mais cela se produit également avec le serveur sur une console physique. HP a également suggéré une source d'alimentation, mais c'est dans un rack de centre de données qui alimente avec succès d'autres systèmes de production.
Y a-t-il une chance que cela puisse être une mauvaise interaction entre les modules DIMM basse tension et les alimentations 750W? Ce serveur devrait être une configuration prise en charge.
Donc, après avoir introduit un système troisième dans le mix, et rencontré le même problème, nous avons commencé à remettre en question l'environnement. J'ai déterré une copie du Guide de dépannage des serveurs HP ProLiant et j'ai trouvé le diagramme de problèmes POST ci-dessous).
En parcourant soigneusement les étapes du tableau, nous avons réalisé que la seule constante sur tous les serveurs était un commutateur KVM attaché au chariot de crash du centre de données. Il s'agissait d'un consommateur compatible USB KVM. Selon le nœud surligné dans l'organigramme, Connaissez-vous un bon KVM?, je n'ai pas pu répondre de manière concluante.
Nous avons donc débranché les serveurs du commutateur KVM et exécuté un démarrage automatisé, sleep 300; reboot
séquence dans rc.local
. Les serveurs n'ont eu aucun problème avec cela, indépendamment de la barrette DIMM normale, des barrettes DIMM basse tension, de la puissance du bloc d'alimentation, etc.
Tout cela était le résultat d'une mauvaise interaction avec un commutateur USB KVM. En vertu du fait que c'était la console, cela nous assurait que nous verrions l'échec si nous le cherchions. ...