Comment puis-je télécharger des PDF d'un site Web en utilisant uniquement le nom de domaine racine?

Question

J'utilise cette commande:

wget -nd -e robots=off --wait 0.25 -r -A.pdf http://yourWebsite.net/

mais je ne peux pas obtenir de PDF du site Web.

Par exemple, j'ai un nom de domaine racine:

www.example.com

et ce site contient des fichiers PDF, DOC, HTML, etc. Je souhaite télécharger tous les fichiers PDF en insérant uniquement le nom du domaine racine, et non l'adresse exacte de la page de téléchargement.

Radu Rădeanu · Accepted Answer

La commande suivante devrait fonctionner:

_wget -r -A "*.pdf" "http://yourWebsite.net/" _

Voir man wget pour plus d'informations.

Eduard Florinescu · Answer

Si cela ne fonctionne pas, essayez ceci: (remplacez l'URL)

lynx -listonly -dump http://www.philipkdickfans.com/resources/journals/pkd-otaku/ | grep pdf | awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}' | xargs -L1 -I {} wget {}

vous devrez peut-être installer Lynx:

Sudo apt install lynx