Comment puis-je archiver (pour l'enregistrement historique) mon site Web?

Question

Si je lance un site Web qui affiche des milliers de pages de contenu (texte) fournies dynamiquement à partir de données d'une base de données et que je souhaite une sorte de preuve pour prouver que ces données ont été publiées (à cette date), je peux les utiliser avenir, quelles sont les options?

J'ai vu un service d'archivage Web commercial qui demande 15 $ par page (!). Je comprends que vous pouvez exécuter le logiciel vous-même sur le serveur, mais je ne sais pas comment cela fonctionne avec les pages générées dynamiquement. La sauvegarde de la base de données (avec un certain type d’horodatage et de sécurisation) est-elle suffisante? Devriez-vous alors prouver que votre application était opérationnelle et que le site Web était également disponible? Quelles sont les alternatives?

paulmorriss · Answer

La sauvegarde de la base de données ne suffit pas, car vous ne pouvez pas prouver que le contenu de la base de données a été affiché sur les pages.

Si les pages générées dynamiquement ont la même apparence pour chaque utilisateur et ne dépendent pas des options de sélection des listes, par exemple, qui génèrent ensuite des pages en fonction de ces options, vous pouvez utiliser le logiciel Spidering. Il prendra un instantané des pages telles qu'elles apparaissaient au moment de la recherche.

J'utilise wget pour ce genre de chose. C'est un outil en ligne de commande, avec un nombre effrayant d'options. Toutefois, l’avantage d’un outil de ligne de commande est que vous pouvez le lancer automatiquement autant de fois que vous le souhaitez. Pour vous aider, voici comment je l'utilise pour obtenir un instantané d'un site:

"c:\program files\wget\wget" -k -p -r -X video -w 1 http://example.com

video est un répertoire dont je ne veux pas obtenir un instantané. -w 1 signifie attendre une seconde entre chaque capture de page, pour que je ne frappe pas le site. -k signifie convertir les liens des fichiers téléchargés pour qu'ils fonctionnent lorsque vous rouvrez ces fichiers et ne revenez pas sur le site Web d'origine -p télécharge tous les fichiers utilisés sur une page, par exemple. images -r signifie récursif, il suit donc tous les liens qui se trouvent sur le site

xyious · Answer

Si je voulais archiver tout ce que je publie sur mon site Web, ce que je ferais, c’est d’écrire le contenu dans un fichier qui ressemble au site créé dynamiquement. Ensuite, je ferais des sauvegardes hebdomadaires de tous les fichiers créés.

Le moyen le plus simple est de faire des sauvegardes de la base de données, voire même d’avoir une seconde base de données sur laquelle une copie exacte sera envoyée à chaque publication.