J'ai beaucoup de serveurs Linux Linux de rechange qui traînent (des centaines) et je veux les utiliser pour un système de fichiers distribué dans un environnement d'hébergement Web et de partage de fichiers. Ce n'est pas pour une application HPC, donc les hautes performances ne sont pas essentielles. La principale exigence est la haute disponibilité, si un serveur se déconnecte, les données stockées sur ses disques durs sont toujours disponibles à partir d'autres nœuds. Il doit s'exécuter sur TCP/IP et fournir des autorisations de fichier POSIX standard.
J'ai regardé ce qui suit:
Lustre ( http://wiki.lustre.org/index.php?title=Main_Page ): vient vraiment fermez, mais il ne fournit pas de redondance pour les données sur un nœud. Vous devez rendre les données HA en utilisant RAID ou DRBD. Pris en charge par Sun et Open Source, il devrait donc exister pendant un certain temps
gfarm ( http://datafarm.apgrid.org/ ): On dirait qu'il fournit la redondance mais au prix de la complexité et de la maintenabilité. Pas aussi bien supporté que Lustre.
Quelqu'un a-t-il une expérience de ces systèmes ou de tout autre système qui pourrait fonctionner?
vérifiez également GlusterFS
Edit (août-2012): Ceph se prépare enfin. Récemment, les auteurs ont formé Inktank , une société indépendante pour vendre un support commercial. Selon certaines présentations, le système de fichiers compatible POSIX montable est la couche supérieure et n'est pas encore vraiment testé, mais les couches inférieures sont utilisées en production depuis un certain temps maintenant.
La partie intéressante est la couche RADOS, qui présente un stockage basé sur les objets avec à la fois un accès "natif" via la bibliothèque librados
(disponible en plusieurs langues) et une API RESP compatible Amazon S3. Dans les deux cas, il est plus que suffisant pour ajouter un stockage massif à un service Web.
Cette vidéo est une bonne description de la philosophie, de l'architecture, des capacités et de l'état actuel.
À mon avis, le meilleur système de fichiers pour Linux est MooseFS, c'est assez nouveau, mais j'ai eu l'occasion de le comparer avec Ceph et Luster et je dis avec certitude que MooseFS est le meilleur.
Gluster reçoit beaucoup de presse en ce moment:
Si personne ne vous oblige à l'utiliser, je vous recommande également fortement d'utiliser autre chose que Lustre. D'après ce que j'entends des autres et ce qui m'a aussi fait des cauchemars pendant un certain temps, c'est le fait que Luster se décompose assez facilement dans toutes sortes de situations. Et si un seul client du système tombe en panne, il se met en mode sans fin do_nothing_loop généralement tout en maintenant un verrou global important - donc la prochaine fois qu'un autre client essaiera d'accéder aux mêmes informations, il se bloquera également. Ainsi, vous finissez souvent par redémarrer l'ensemble du cluster, ce que je suppose que vous essayez d'éviter normalement;)
Les systèmes de fichiers parallèles modernes comme FhGFS (http://www.fhgfs.com) sont beaucoup plus robustes ici et vous permettent également de faire de belles choses comme exécuter des composants serveur et client sur les mêmes machines (bien que les fonctionnalités HA intégrées soient toujours sous développement, comme quelqu'un de leur équipe me l'a dit, mais leur mise en œuvre va être assez impressionnante d'après ce que j'ai entendu).
Lustre travaille pour nous. Ce n'est pas parfait, mais c'est la seule chose que nous ayons essayée qui ne soit pas tombée en panne à cause de la charge. Nous recevons toujours des LBUGS de temps en temps et traiter des systèmes de fichiers de 100 To + n'est jamais facile, mais le système Luster a fonctionné et a augmenté les performances et la disponibilité.
J'ai beaucoup lu sur les systèmes de fichiers distribués et je pense que FhGFS est le meilleur.
Ça vaut le coup d'essayer. En savoir plus à ce sujet sur:
Ceph semble être une nouvelle entrée prometteuse dans l'arène. Le site affirme qu'il n'est pas encore prêt pour une utilisation en production.