Je cherche une solution de déduplication de système de fichiers avec copie sur écriture pour les données utilisateur générales telles que /home
et leurs sauvegardes. Elle doit utiliser la déduplication en ligne/intégrée/synchrone au niveau du bloc en utilisant un hachage sécurisé (pour un risque de collision négligeable) tel que SHA256 ou TTH . Les blocs en double n'ont même pas besoin de toucher le disque.
L'idée est que je devrais pouvoir simplement copier /home/<user>
sur un disque dur externe doté du même système de fichiers pour effectuer une sauvegarde. Facile. Pas de gâchis avec les sauvegardes incrémentielles où la corruption de l'un des instantanés casse presque toujours tous les instantanés ultérieurs, et il n'est pas nécessaire d'utiliser un outil spécifique pour supprimer ou "extraire" un instantané. Tout devrait simplement être fait à partir du navigateur de fichiers sans souci. Pouvez-vous imaginer à quel point cela serait facile? Je n'aurais jamais à réfléchir à deux fois avant de revenir en arrière!
Cela ne me dérange pas que la performance soit touchée, la fiabilité est la principale préoccupation. Bien que, avec des implémentations spécifiques de cp
, mv
et scp
, et un plug-in de navigateur de fichiers, ces opérations seraient très rapides, en particulier lorsqu'il y a beaucoup de duplications, car elles ne nécessitent que transférer les blocs absents. Accidentellement, utiliser des outils de copie conventionnels qui ne s'intègrent pas avec FS prendrait simplement plus de temps, gaspillera de la bande passante lors de la copie à distance et gaspillera du haché (bien que rien ne soit réécrit), mais ne corromprait absolument rien . (Certains logiciels de partage de fichiers peuvent également tirer parti d’une intégration au système de fichiers.)
Alors, quelle est la meilleure façon de faire cela?
J'ai examiné certaines options:
De plus, il y a 2 ans, j’essayais de Python d’utiliser Fuse au niveau du fichier pour l’utiliser au-dessus d’un solide typique FS tel que EXT4, mais je trouvé Fuse pour Python sous-documenté et n'a pas réussi à mettre en œuvre tous les appels système.
Je cherche et cherche exactement la même chose, je pourrais le suggérer https://attic-backup.org/quickstart.html#automating-backups pour le moment, semble être assez simple et bon pour les sauvegardes de Linux.
Il y a aussi bacula avec cette fonctionnalité, mais grenier semble être assez bon pour la plupart des cas.
Cela semble très entreprise (comme dans cher).
datadomain offre la déduplication des données, et peut-être netapp avec son système de fichiers wafl. Mais à un coût élevé.
Une alternative "libre" pourrait être zfs.
Selon moi, l'alternative "la meilleure" et la plus répandue sur Linux, bien qu'au niveau des fichiers au lieu du "niveau des blocs", serait rsnapshot. Il utilise rsync et des liens en dur pour gérer les versions.
Je préfère faire confiance aux vieux outils éprouvés que d'utiliser un nouveau système de fichiers comme Btrfs, qui n'existe pas depuis assez longtemps pour permettre aux utilisateurs de découvrir toutes sortes de bugs méchants.