J'ai utilisé wget pour télécharger des fichiers HTML, où sont stockées les images du fichier?

Question

Le chargement de Firefox étant très lent, j'ai donc décidé d'utiliser wgetpour enregistrer les fichiers HTML. J'ai utilisé la commande suivante,

wget http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Les fichiers ont été enregistrés dans mon dossier personnel. Mais je ne sais pas où les images sont stockées. J'en ai besoin pour les utiliser dans Ankiname__.

Alors, où sont les images stockées?

Florian Diesch · Accepted Answer

Je préfère utiliser --page-requisites (-p en abrégé) au lieu de -r car il télécharge tout ce que la page doit afficher, mais pas d'autres pages, et je n'ai pas à réfléchir au type de fichiers que je veux.

En fait, j'utilise habituellement quelque chose comme

wget -E -H -k -p http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Ça signifie:

-E: Ajoutez .html au nom du fichier s'il s'agit d'un fichier HTML mais ne se termine pas par .html ou similaire.
-H: Téléchargez également des fichiers d'autres hôtes
-k: Après le téléchargement, convertissez tous les liens qui se trouvent dessus pour qu'ils pointent vers les fichiers téléchargés.
-p: Téléchargez tout ce dont la page a besoin pour un affichage correct hors ligne

vegard torvund · Answer

l'utilisation du paramètre -r devrait permettre à wget de télécharger l'intégralité du dossier, y compris vos images.

wget -r http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

don.joey · Answer

Télécharger les fichiers image séparément aussi

Je pense que cette commande pourrait vous aider à démarrer.

 wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Il vous permet de spécifier l'emplacement pour enregistrer les images et les types de fichiers que vous souhaitez. Peut-être que télécharger les images en tant que telles est plus facile.

Source :

-r active la récupération récursive. Voir Téléchargement récursif pour plus d'informations.

-P définit le préfixe de répertoire dans lequel tous les fichiers et répertoires sont enregistrés.

-A définit une liste blanche pour récupérer uniquement certains types de fichiers. Les chaînes et les modèles sont acceptés et les deux peuvent être utilisés dans une liste séparée par des virgules (voir ci-dessus). Voir Types de fichiers pour plus d'informations.

Copier les fichiers image de votre dossier

J'ai remarqué que le site Web utilise des fichiers d'image PNG. Vous pouvez simplement les copier de votre dossier. Cela devrait être exécuté dans le dossier où vous avez enregistré la page Web.

find . -name "*.png" -exec cp '{}' ./some_dir/somewhere/ \;

Ramchandra Apte · Answer

Wget télécharge simplement le fichier HTML de la page, pas les images de la page, car les images du fichier HTML de la page sont écrites sous forme d'URL. Pour faire ce que vous voulez, utilisez le -R (récursif), l’option -A avec les suffixes du fichier image, l’option --no-parent pour le rendre non ascendante et l’option --level avec 1.

Plus précisément wget -R -A .jpg,.png,.gif --no-parent --level <url>

Encore mieux, la plupart des navigateurs ont des méthodes pour enregistrer des pages pour une consultation hors ligne .

Plus précisément wget -R -A .jpg,.png,.gif --no-parent --level <url>

Encore mieux, la plupart des navigateurs ont des méthodes pour enregistrer des pages pour une consultation hors ligne .