Nous avons en fait gravé à plusieurs reprises des copies statiques/archivées de nos sites Web asp.net pour les clients. Nous avons utilisé WebZip jusqu'à présent, mais nous avons eu des problèmes sans fin avec des plantages, des pages téléchargées qui n'étaient pas correctement reliées, etc.
Nous avons essentiellement besoin d'une application qui explore et télécharge des copies statiques de tout sur notre site Web asp.net (pages, images, documents, css, etc.) puis traite les pages téléchargées afin qu'elles puissent être consultées localement sans connexion Internet (se débarrasser des URL absolues dans les liens, etc.). Plus la preuve est idiote, mieux c'est. Cela semble être un processus assez courant et (relativement) simple, mais j'ai essayé quelques autres applications et je n'ai vraiment pas été impressionné
Quelqu'un at-il un logiciel d'archivage à recommander? Quelqu'un at-il un processus très simple à partager?
Sous Windows, vous pouvez regarder HTTrack . Il est très configurable vous permettant de régler la vitesse des téléchargements. Mais vous pouvez simplement le pointer vers un site Web et l'exécuter également sans aucune configuration.
D'après mon expérience, cela a été un très bon outil et fonctionne bien. Certaines des choses que j'aime à propos de HTTrack sont:
Vous pouvez utiliser wget :
wget -m -k -K -E http://url/of/web/site
Wayback Machine Downloader par hartator est simple et rapide.
Installez via Ruby, puis exécutez avec le domaine souhaité et l'horodatage facultatif à partir de Internet Archive .
Sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000
wget -r -k
... et étudiez le reste des options. J'espère que vous avez suivi ces directives: http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html afin que toutes vos ressources soient en sécurité avec les requêtes GET.
Pour les utilisateurs d'OS X, j'ai trouvé l'application sitesucker trouvée ici fonctionne bien sans configurer quoi que ce soit, mais à quelle profondeur elle suit les liens.
Si vos clients archivent pour des problèmes de conformité, vous voulez vous assurer que le contenu peut être authentifié. Les options répertoriées conviennent pour une visualisation simple, mais elles ne sont pas légalement admissibles. Dans ce cas, vous recherchez des horodatages et des signatures numériques. Beaucoup plus compliqué si vous le faites vous-même. Je suggère un service tel que PageFreezer .
J'utilise juste: wget -m <url>
.
J'utilise HTTrack depuis plusieurs années maintenant. Il gère tous les liens inter-pages, etc. très bien. Ma seule plainte est que je n'ai pas trouvé un bon moyen de le limiter très bien à un sous-site. Par exemple, s'il existe un site www.foo.com/steve que je souhaite archiver, il suivra probablement des liens vers www.foo.com/rowe et l'archivera également. Sinon c'est super. Hautement configurable et fiable.