Cette question a été inspirée par https://superuser.com/questions/374386/how-to-store-and-preserve-lots-of-data . Il y a eu d'autres questions similaires, mais aucune avec les mêmes critères.
C'est deux questions en une.
Critères
Mes pensées:
Hormis l'encre d'archives sur papier d'archives stocké sous scellé, il est prouvé qu'aucun support actuel ne dure en moyenne 100 ans sans maintenance.
Les papiers plus anciens étaient fabriqués à partir de matériaux tels que le lin et le chanvre, et sont donc naturellement alcalins. ou sans acide, donc pendant des centaines d'années. Le papier du XXe siècle et le papier le plus moderne sont généralement fabriqués à partir de pâte de bois, qui est souvent acide et ne se conserve pas longtemps.
Ces encres permanentes, qui ne se décolorent pas, résistent à la lumière, à la chaleur et à l'eau et ne contiennent aucune impureté susceptible de nuire à la permanence du papier ou des supports photographiques. Les encres Black Actinic sont chimiquement stables et contiennent un pigment inorganique qui n'a pas tendance à absorber les impuretés, contrairement à d'autres pigments d'encre.
Seuls les wimps utilisent la sauvegarde sur bande: _real_ men télécharge simplement leurs fichiers importants sur ftp et laisse le reste du monde les imiter
Ce qui suggère que vous ne devriez pas vous fier à une copie unique sur un seul support.
En 2002, on craignait beaucoup que les disques ne deviennent illisibles car les ordinateurs capables de lire le format étaient devenus rares et les lecteurs capables d'accéder aux disques encore plus rares. Outre la difficulté à émuler le code original, un problème majeur résidait dans le fait que les images fixes avaient été stockées sur le disque laser sous forme de vidéo analogique à une image,
http://en.wikipedia.org/wiki/BBC_Domesday_Project#Preservation
http://www.zdnet.com/blog/storage/long-term-personal-data-storage/376
Il n'y a pas de solution facile. La maintenance des archives est un processus , pas un travail ponctuel. Les trois types de supports d'archives actuellement disponibles ont leurs propres avantages et inconvénients, mais ces arguments s'appliquent à tous les types de supports:
Personne n'a stocké de DVD ou de disque dur pendant 30 ou 100 ans, pour des raisons évidentes. Il n’existe donc aucun bilan et personne ne sait comment les médias vont vieillir. Les tests de vieillissement artificiel ne prouvent pas grand-chose et vous vous fiez aux tests du fournisseur (non impartiaux).
Vous devez stocker le support dans l'environnement contrôlé pour obtenir les meilleurs résultats (température/humidité constante, faible luminosité, etc.). Sinon, la vie des médias est considérablement raccourcie.
Vous devez conserver le matériel et le logiciel qui lisent le support (par exemple, les interfaces SATA risquent de ne plus être disponibles dans 30 ans).
Donc, à mon avis, la seule solution viable pour les particuliers ou les petites entreprises est la suivante:
Suivi rapide sur ma réponse précédente ci-dessus , cela sera rendu plus concis et étendu avec des informations supplémentaires (mais pas primordiales) et des références que je impossible d'ajouter dans la première réponse à cause des contraintes de longueur de 30K.
Étant donné que l'archivage à long terme est un processus de conservation, voici quelques points sur lesquels vous voudrez peut-être accorder une attention particulière afin de rendre votre processus plus efficace et moins consommateur de temps (et de ressources):
Déduplication : dans la mesure où la redondance est délibérément conçue pour garantir l’archivage à long terme, vous souhaitez éviter les données redondantes inutiles (par exemple, les copies de fichiers que vous avez extraites de votre clé usb). votre disque dur d’archivage, mais vous en avez déjà une copie sur votre ordinateur principal!). Les données redondantes indésirables, généralement appelées , les doublons sont incorrects, tant en coût de stockage (ils prennent plus de ressources de stockage, mais vous aurez du mal à les trouver en cas de besoin), pour votre processus (et si vous avez différentes versions du même fichier? Comment savoir quelle copie est la bonne?) et pour votre époque (le temps de transfert s'ajoute au moment où vous synchroniserez la sauvegarde avec toutes vos archives). C'est pourquoi les services d'archives professionnels proposent généralement une déduplication automatisée : les fichiers exactement similaires obtiendront le même inode et ne prendront pas d'espace supplémentaire. C'est ce que fait SpiderOak par exemple. Il existe des outils automatisés que vous pouvez utiliser et les systèmes de fichiers ZFS (Linux) ou ReFS (Windows) peuvent le faire automatiquement pour vous.
Classement par ordre de priorité/catégorisation : comme vous pouvez le constater, l'archivage à long terme est un processus fastidieux qui doit être effectué régulièrement (pour vérifier la cohérence, synchroniser les archives sur différents supports, créer de nouvelles archives sur de nouvelles remplacer les fichiers en train de mourir, réparer les fichiers à l’aide de codes de correction des erreurs, etc.). Pour minimiser le temps que cela vous coûte, essayez de définir différents systèmes de protection en fonction de la priorité de vos données en fonction des catégories . L’idée est que, lorsque vous déplacez les données de votre ordinateur sur l’un de vos disques durs externes que vous utilisez pour l’archivage à long terme, vous les placez directement dans un dossier définissant la priorité de sauvegarde: "sans importance", "personnel", "important", "critique". ". Ensuite, vous pouvez définir différentes stratégies de sauvegarde pour chaque dossier: réservez la protection complète (par exemple, sauvegarde sur 3 disques durs + cloud + codes de correction d'erreur + BluRays) uniquement pour les données les plus critiques que vous souhaitez conserver toute votre vie (le dossier critique) , puis une protection moyenne pour les données "importantes" (par exemple, sauvegarde sur 3 disques durs + cloud) puis "personnelle" est simplement copiée sur au moins deux disques durs externes, et "sans importance" ne reçoit aucune copie (ou peut-être sur un disque dur). conduire si la synchronisation n'est pas trop longue ...). Habituellement, vous verrez que "sans importance" contient la plupart des données, puis "personnel" moins, puis "important" beaucoup moins et "critique" sera assez minuscule (moins de 50 Go pour moi). Par exemple, dans "critique", vous placerez votre contrat de maison et vos images de mariage et d'accouchement. Ensuite, dans "important", vous trouverez des documents que vous ne voulez pas perdre, tels que des documents légaux, des photos et vidéos importantes d'événements mémorables, etc. Dans "personnel", vous placerez toutes vos photos personnelles, vidéos de vos vacances et documents de travail. , ce sont des documents et des médias que vous aimeriez conserver, mais vous ne mourrez pas de regret si vous les perdez (ce qui est bien, car ce dossier est généralement énorme, de sorte que vous perdrez probablement certains fichiers à long terme ... ). Le terme "sans importance" regroupe tout ce que vous téléchargez sur Internet ou divers fichiers et médias que vous ne connaissez pas vraiment (comme les logiciels, les jeux et les films). L'essentiel est que: , plus il y aura de fichiers à archiver à long terme, plus cela sera difficile (et fastidieux) , alors essayez de conserver les fichiers qui bénéficient de ce traitement spécial au minimum.
Les métadonnées sont un point critique : même avec de bonnes stratégies de curation, il y a généralement une chose qui n'est pas protégée: les métadonnées. Les méta-données incluent les informations sur vos fichiers, par exemple: l’arborescence de répertoires (oui, ce n’est que quelques octets; si vous perdez cela, vous obtenez vos fichiers en désordre total!), Le nom du fichier et son extension, l’horodatage Cela peut sembler peu important, mais imaginez ce qui suit: que si demain, tous vos fichiers (y compris ceux livrés avec les logiciels et autres choses) sont placés dans un dossier plat, sans leur nom de fichier ni fichier extension. Serez-vous capable de récupérer les fichiers dont vous avez besoin parmi les milliards de fichiers de votre ordinateur, par inspection manuelle? Ne croyez pas qu'il s'agisse d'un scénario inhabituel, cela peut se produire aussi facilement que si vous subissiez une panne de courant ou un crash au milieu d'une copie: la partition en cours d'écriture peut être totalement détruite (type infâme RAW). Pour surmonter ce problème, vous devez être prêt et préparer vos données pour la récupération des données: pour vous assurer de conserver les métadonnées, vous pouvez agglomérer les fichiers avec leurs métadonnées en utilisant non-solid archives telles que Zip DEFLATE ou DAR (mais pas tar ). Certains systèmes de fichiers offrent une redondance automatisée des métadonnées, tels que DVDisaster (pour les disques optiques) et ZFS/ReFS (pour les disques durs). Ensuite, en cas de blocage des métadonnées, vous pouvez essayer de récupérer vos partitions en utilisant TestDisk ou GetDataBack (autoriser la récupération partielle de l’arborescence de répertoires) ou ISOBuster (pour les disques optiques), afin de récupérer l’arborescence de répertoires et d’autres métadonnées. Au cas où tout cela échouerait, vous pouvez utiliser PhotoRec pour scinder des fichiers: cela extraira tous les fichiers qu’il reconnaît, mais en désordre total et sans nom de fichier ni horodatage, seules les données elles-mêmes seront récupérées. Si vous avez compressé des fichiers importants, vous pourrez récupérer les métadonnées dans le zip (même si le zip lui-même ne contient plus de méta-données, au moins, les fichiers possèdent toujours les méta-données correctes). Cependant, vous devrez vérifier manuellement tous les fichiers encapsulés, ce qui prend beaucoup de temps. Pour éviter cette éventualité, vous pouvez générer au préalable un fichier de somme de contrôle d’intégrité à l’aide de pyFileFixity ou de PAR2, puis utiliser ce fichier de contrôle d’intégrité après la création de fichiers pour reconnaître et renommer automatiquement les fichiers en fonction de leur contenu (il s’agit du seul moyen d’automatiser la méta-collecte des fichiers). récupération de données, car la fermeture de fichiers ne peut techniquement que récupérer le contenu, pas les méta-données).
Testez vos formats de fichier et vos stratégies de curation pour vous-même : au lieu de vous fier aux mots des articles décrivant quel type de format est meilleur que l'autre, vous pouvez essayer vous-même avec pyFileFixity filetamper.py ou tout simplement par vous-même en remplaçant quelques caractères hexadécimaux dans certains fichiers: vous constaterez que la plupart des formats de fichiers peuvent être décomposés avec aussi peu que 3 octets différents . Vous devez donc choisir avec soin vos formats de fichiers: préférez les fichiers texte simples pour les notes et utilisez des formats de fichiers résilients pour les médias (ils sont toujours en cours de traitement, tels que MPEG-4 Code de correction d'erreur variable, implémentations ffmpeg il sera ajouté, ref), ou générez vos propres codes de correction d’erreur.
Lisez des études statistiques, ne croyez pas les affirmations : comme je l’ai dit dans la réponse précédente, des affirmations extravagantes sont faites tout le temps sur la longévité des supports de stockage sans aucun fait scientifique, et vous devrait être particulièrement prudent à ce sujet. En effet, rien dans la loi n'empêche le fabricant de se vanter de prétentions fausses et invérifiables sur la longévité. Préférez vous référer à des études statistiques, telles que le rapport annuel de BackBlaze sur les taux de défaillance des disques durs .
Prenez un support de stockage longtemps garanti . Une garantie ne peut pas rapporter vos données, mais elle explique comment le producteur évalue le taux d'échec de son produit (sinon, cela coûterait trop cher si le taux est trop élevé pendant la période de garantie).
Une mise à jour sur le schéma que j'utilise: j'applique la stratégie de hiérarchisation décrite ci-dessus et j'ai ajouté le service de sauvegarde sur le cloud SpiderOak à mon schéma, car il comporte un plan avec un stockage infini et qu'il est totalement crypté, je conserve donc l'entière propriété de mes données. Je n'utilise PAS comme seul support de sauvegarde de mes données, il ne s'agit que d'une couche supplémentaire.
Alors, voici mon schéma actuel:
Ma routine quotidienne est la suivante: j’ai toujours un disque dur USB portable 2.5 que je peux utiliser pour stocker des éléments non importants (transférer des fichiers de mon ordinateur sur le disque dur) ou pour sauvegarder des éléments importants (copier des fichiers sur le disque dur, mais en conserver une copie sur mon ordinateur). ordinateur). Pour les choses vraiment critiques, j'active également la sauvegarde en ligne sur SpiderOak (j'ai un dossier contenant des choses critiques sur mon ordinateur, je dois donc y déplacer des fichiers critiques et la synchronisation est automatiquement effectuée par SpiderOak). Pour les fichiers vraiment critiques, je calcule également un fichier de correction d'erreur à l'aide de pyFileFixity.
Donc pour résumer, pour les choses critiques, je les stocke sur: le disque dur portable, le cloud SpiderOak et mon ordinateur, donc j'ai 3 copies à tout moment avec seulement deux actions rapides (copier sur un disque dur portable et aller dans le dossier SpiderOak). Si une copie est corrompue, je peux faire un vote à la majorité pour les réparer avec pyFileFixity. Il s’agit d’un système très économique (en prix et en temps), mais très efficace et qui met en œuvre tous les principes fondamentaux de la curation numérique (triple redondance, différentes copies dans différents emplacements, différents supports, contrôle d'intégrité et ecc de SpiderOak).
Ensuite, tous les 3 à 6 mois, je synchronise mon disque dur portable sur mon deuxième disque dur à la maison, puis tous les 6 à 12 mois, je synchronise mon disque dur portable sur mon troisième disque dur qui se trouve dans une autre maison. Cela offre l’avantage supplémentaire de la rotation (si, au bout de 6 mois, je réalise que quelque chose ne va pas dans ma dernière sauvegarde et que je supprime des fichiers critiques, je peux les obtenir à partir de l’un des deux disques durs du logement).
Enfin, j'ai écrit des fichiers très critiques sur des disques BluRay en utilisant DVDisaster (et des fichiers ecc supplémentaires avec pyFileFixity mais je ne suis pas sûr que ce soit nécessaire). Je les range dans une boîte hermétique dans un placard. Je ne les vérifie que tous les deux ou trois ans.
Donc, vous voyez, mon schéma n’est pas un gros fardeau: au quotidien, il faut quelques minutes pour copier des fichiers sur un disque dur portable et dans mon dossier SpiderOak, puis je ne synchronise que tous les 6 mois sur un disque dur domestique. . Cela peut prendre jusqu’à une journée en fonction du volume de données à synchroniser, mais il est automatisé par les logiciels, vous devez donc laisser un ordinateur exécuter le logiciel et faire autre chose (j’utilise un netbook à 100 $ que j’ai acheté faire cela, afin que je puisse travailler sur mon ordinateur principal en même temps sans me soucier de planter mon ordinateur au milieu d’une copie, ce qui peut être terrible et détruire votre disque dur en cours d’écriture ). Les codes de correction d'erreur et les schémas BluRay ne sont que rarement utilisés pour des données vraiment critiques; cela prend donc un peu plus de temps, mais c'est rare.
Ce schéma peut être amélioré (comme toujours), par exemple en utilisant ZFS/ReFS sur les disques durs : cela implémenterait un système automatisé de Reed-Solomon protection du code de correction d'erreur et contrôle d'intégrité (et dittoblocks !) sans interaction manuelle de ma part (contrairement à pyFileFixity). Bien que ZFS ne puisse pas fonctionner sous les systèmes d'exploitation Windows (pour le moment) , il existe ReFS qui permet un contrôle similaire de la correction des erreurs au niveau du système de fichiers. En outre, il pourrait être intéressant d’utiliser ces systèmes de fichiers sur des disques durs externes! Un disque dur portable exécutant ZFS/ReFS avec correction automatique des erreurs RS et déduplication devrait être génial! (et ZFS semble être assez rapide , donc la copie doit être rapide!).
Une dernière remarque: faites attention aux affirmations sur les capacités ECC de systèmes de fichiers tels que dans cette liste , car pour la plupart, il est limité aux métadonnées (telles que APFS ) ou en miroir RAID 1 ( btrfs ). À ma connaissance, seuls ZFS et ReFS fournissent de vrais codes de correction d'erreur (et non une simple mise en miroir) des métadonnées et des données, ZFS étant le plus avancé actuellement (bien que quelque peu expérimental à partir de 2018), en particulier parce que les disques ReFS ne peuvent pas être démarrés. .
J'irais sur microfilm. Je ne sais pas si c'est toujours fabriqué, mais je serais surpris si ce n'était pas le cas. Les négatifs à base d'argent durent des centaines d'années s'ils sont stockés correctement. Bien sûr, il s’agit d’un investissement énorme, qui prendra toute une place pour la photographie et la visualisation, sans compter le stockage. Ce n'est donc que si vous vous entendez vraiment plus de 100 ans sans entretien.
Si ce n'est pas le cas - et il est probable que vous ne l'êtes pas à moins de vouloir créer une capsule temporelle -, utilisez simplement des sauvegardes sur disque dur et copiez le tout dans un nouveau support tous les 10 à 15 ans. En réalité, il n’existe pas de meilleure assurance contre le vieillissement du support que de la copier tous les 10 ans environ. Mieux que les microfilms, mieux que les tablettes d'argile, mieux que les obélisques de pierre enterrés dans le sable du désert.
Jusqu'à 5 To (ou plus?), Vous pouvez stocker en toute sécurité jusqu'à 30 ans sur une bande magnétique ou lecteur de bande. Ce temps est prouvé. Les disques enregistrables Blue-ray doivent également stocker votre contenu en toute sécurité pendant 30 ans également, mais sa capacité de stockage est d’environ 100 Go.
Si vous avez plus d’argent, vous le stockerez sur un film noir/blanc 35mm. Il est supposé que les données peuvent être restaurées (en fonction de la densité) pour les 700 prochaines années. ( lien allemand vers wikipedia )
Je recommande un disque de nickel de trois pouces de diamètre avec des informations gravées au microscope sur sa surface.
http://rosettaproject.org/blog/02008/aug/20/very-long-term-backup/
J'ai lu que 'M-Disc' avait créé un DVD nécessitant un graveur spécial, mais lisible par tous les lecteurs de DVD génériques. Ils revendiquent une durée de vie estimative de 1000 ans, déclarant qu'il ne peut pas être testé avec précision. Une longue exposition au soleil, des rayures, une utilisation multiple, etc., et le disque est utilisable à 100%. Je serais intéressé par tous les commentaires de quiconque a rencontré ce système.
Voici un extrait de Dell qui a peut-être installé le lecteur M-Disc dans leurs nouveaux ordinateurs portables/PC
M-DISC Ready enregistre les données de gravure au laser dans un matériau semblable à de la roche inorganique afin d'éviter toute perte de données, garantissant ainsi la sécurité de vos fichiers et leur stockage pouvant durer jusqu'à 1 000 ans, affirme la société.
Contrairement à tous les autres DVD enregistrables qui utilisent des colorants organiques pour conserver des données, les disques M ne se décolorent pas et ne se dégradent pas avec le temps.
Pour ce type de durée, tout ce qui est déjà sur papier (ou peut être facilement imprimé sans perdre d'informations) serait préférable de le stocker sous cette forme. Soyez juste conscient du papier et du toner que vous utilisez pour la copie papier.
Pour ce qui est des autres, je ne connais pas de support numérique actuellement utilisé qui durerait aussi longtemps. Si vous passez du temps (et donc de l'argent) à rafraîchir votre collection, une bande magnétique pourrait être une option viable - mais même dans ce cas, vous auriez besoin d'une certaine redondance, car vous pourriez simplement découvrir qu'une seule bande a mal fonctionné (ou Il se peut que le lecteur de bande se trouve juste pour déchirer la bande en le lisant).
Et même si vous pouviez faire en sorte que les médias actuels résistent à l'épreuve du temps, vous seriez toujours obligés de savoir si un programme pourrait lire les médias dans 30 ans, et encore moins dans 100 ans.
Il est vrai que les CD-R et DVD-R standard ne sont pas assez fiables pour archiver des données importantes. Mais vous pouvez obtenir des DVD qui ne se détériorent pas si rapidement:
Comme quelqu'un l'a déjà mentionné, il existe une nouvelle technologie appelée M-Disc. Ils sont très fiables: http://www.zdnet.com/torture-testing-the-1000-year-dvd-7000023203/ Nous avons commencé à utilisez-les pour sécuriser des images de disques de machines de production. Il y a déjà des Blu-Ray sur le marché. Le seul inconvénient est qu'ils sont plus lents que les RD classiques.
Vous devez combiner différentes technologies, emplacements et supports afin de réaliser des sauvegardes de longue durée:
Si vous souhaitez avoir une méthode pour résoudre ce problème, vous devez étudier le champ Préservation numérique.
http://en.wikipedia.org/wiki/Digital_preservation
La préservation numérique est la méthode qui permet de conserver le matériel numérique en vie de manière à ce qu'il reste utilisable, car les avancées technologiques rendent obsolètes les spécifications d'origine du matériel et des logiciels (wikipedia).
Il existe également un modèle de référence: OAIS http://en.wikipedia.org/wiki/Open_Archival_Information_System
Il existe quelques solutions open source et commerciales pour le réaliser. Les bibliothèques et les archives utilisent ces technologies pour conserver les livres numérisés pendant de longues périodes.
Votre réponse est simple:
https://wiki.openstack.org/wiki/Cinder
Openstack est un système de stockage presque "immortel", car vous pouvez mettre à niveau ou remplacer des nœuds de défaillance par de nouveaux, même avec des technologies futures que nous ne connaissons pas encore. Vos données ont au moins deux ou trois emplacements simultanément dans ce système. Par conséquent, des notes de stockage complètes peuvent échouer et vos données sont toujours présentes. Échelles jusqu'à 50 PB (vérifié) - 110 PB. Fondamentalement, il ajoute une couche logicielle sur votre matériel, ce qui rend votre stockage infini en vie. Il surmonte notre barrière sonore actuelle des ensembles de raids avec ses limites de temps de reconstruction des très grands ensembles de raids. Les coûts représentent environ 50% des systèmes de stockage RAID classiques. Je connais un système de FUJITSU présentant cette architecture de référence: CD10000