web-dev-qa-db-fra.com

Comment puis-je obtenir mes serveurs HP pour m'envoyer un email quand un lecteur échoue?

Idéalement, avec aussi simple d'installation que possible et sans nécessiter de redémarrer les serveurs. Principalement pour DL380 G5's si cela aide.

11
DrZaiusApeLord

Cela dépend légèrement des systèmes d'exploitation que vous exécutez sur les serveurs, mais en général, il est possible d'obtenir des alertes à partir de serveurs ProLiant HP et de contrôleurs de Raid Smart Array.

La liste complète du conducteur et du logiciel pour votre Systèmes DL380 G5 est répertoriée ici .

SNMP et une solution de surveillance sont la meilleure approche ... mais vous pouvez augmenter avec certains des outils de HP. HP propose le HP Systems Insight Manager , disponible au téléchargement et est également livré avec les serveurs. Ceci est idéal pour les collections de serveurs. Si vous recherchez des alertes ponctuelles sans créer d'une infrastructure de gestion ou de surveillance, vous pouvez simplement installer les agents agents de gestion HP (AKA PLACEL DE Principa de support ).

Pour les systèmes Linux autonomes, je serai les agents envoyer des pièges par courrier électronique. Je configurerai généralement le pack de support avec des valeurs par défaut ou un Bundle personnalisé , puis modifier /opt/hp/hp-snmp-agents/cma.conf et modifier la ligne trapemail ligne à l'adresse du destinataire:

########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
#             trapemail /usr/bin/logger
#       will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' [email protected]

Si vous exécutez Linux et que vous ne souhaitez pas installer la suite HP Management Suite, vous pouvez développer un script autour de l'utilitaire CCISS_VOL_STATUS Utilitaire sur le contrôleur/état de la requête. Voir également: Installation des agents HP sur OpenFiler

16
ewwhite

J'ai utilisé le programme léger que @ewwite mentionné dans sa réponse: cciss_vol_status

Si vous suivez les instructions d'installation d'accompagnement, le script est placé dans /usr/local/bin/cciss_vol_status.

Voici un script wrapper que j'utilise à Grep la sortie de cciss_vol_status et d'envoyer un courrier électronique si un tableau a un statut d'échec.

#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers.  Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`

# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_Host=`hostname`
# To: email
_toemail=root

# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}

if echo $status | grep -q FAILED
then
    # make sure we haven't sent a notification in the last X minutes
    if test `find ${lockfile} -mmin +${_notification_freq}`
    then
        echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_Host}" ${_toemail}

        # update lock file mod time
        /bin/touch ${lockfile}
    fi
fi

Appelez le script ci-dessus en cron. Je cours le chèque toutes les deux minutes:

*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh

Nous utilisons HP System Insight Manager Pour vérifier si nos HP sont opérationnelles, mais rien au-delà de cela. J'ai trouvé que l'agent Linux soit surchargé pour nous, car nous avons d'autres solutions de surveillance en place, ce script ci-dessus sert bien son objectif spécifique.

[~ # ~ ~] Mise à jour [~ # ~]

Juste un pourboire de dépannage au cas où vous vous en rencontreriez. Ce script s'est avéré utile ce matin lorsque j'ai reçu un courrier électronique sur un tableau ayant échoué avec:

Cache Sale limite atteinte

L'appareil est allé en lecture seule et n'était pas visible dans /proc/partitions. J'ai redémarré le serveur et a vu ces messages au démarrage:

Lecteur logique (s) désactivé en raison d'une éventuelle perte de données. Sélectionnez "F1" pour continuer avec le (s) lecteur logique (s) désactivé Sélectionnez "F2" pour accepter la perte de données et réactiver le (s) lecteur logique (s)

J'ai sélectionné F2 et le raid était bien et monté au démarrage.

3
Banjer