Quelle est la meilleure façon de vérifier les erreurs du disque dur et les premiers signes de défaillance sur CentOS?
Je recommanderais d'installer smartmon ( http://sourceforge.net/apps/trac/smartmontools/wiki ) sur votre machine, c'est un logiciel qui peut vérifier la santé de vos disques sinon il va être en train de vérifier/var/log/messages ou/var/log/syslog pour toute mention d'erreurs scsi
dmesg
Le noyau enregistrera tous les messages de diagnostic concernant les périphériques d'E/S, vous pouvez donc extraire ces messages avec la commande dmesg.
Vous pouvez exécuter fsck sur l'appareil pour vérifier les erreurs.
Comme le dit Paul, les journaux SMART sont un bon endroit pour vérifier.
Je recommanderais également d'exécuter BadBlocks . Si vous avez une carte RAID, vous devrez peut-être utiliser la surveillance à ce sujet.
La surveillance SMART est un bon moyen. En tant que root, smartctl -a /dev/hda
, où hda est le lecteur que vous souhaitez ... pourrait être hdb, sda, etc. Recommandez également de définir votre adresse e-mail dans/etc/aliases comme la personne qui devrait recevoir le courrier de root.
C'est une réponse très vague cependant. Si vous avez un serveur fabriqué par l'un des grands fabricants (Dell, HP, etc.), il y a de fortes chances que de meilleures capacités de surveillance soient disponibles.
Vous pouvez essayer une vérification complète de la partition/dev/sda1 (par exemple) comme
fsck -f /dev/sda1
ou essayez un test non descriptif complet en lecture-écriture de la partition donnée
badblocks -vn /dev/sda1