web-dev-qa-db-fra.com

analyser la page Web jusqu'à n niveaux à l'aide de wget

J'essaie d'extraire les URL d'une page Web jusqu'aux niveaux définis par l'utilisateur en utilisant wget. J'ai essayé

 wget -r -l$2 --reject=gif -O out.html www.google.com | sed -n 's/.*href="\([^"]*\).*/\1/p'` "

Il affiche uniquement le premier niveau. il n'analyse aucun niveau comment pourrais-je y remédier

3
maker

Débarrassez-vous de $ 2 à moins que vous n'assigniez une variable 2 = 1 ou quelque chose comme ça ailleurs, -l $ 2 fera sortir wget wget: --level: Invalid number qui ne s'alimentera pas très bien dans sed.

tu peux faire:

wget -l 2 <address>

ou

wget --length=2 <address>

vous pouvez également être intéressé par l'option sans parent, qui empêchera wget de parcourir le répertoire (n niveaux). Il s'agit d'une option particulièrement utile lors de la récupération récursive, car elle garantit que seuls les fichiers en dessous d'une certaine hiérarchie seront téléchargés.

wget -np <address>
1
j0h