web-dev-qa-db-fra.com

Obtention de texte et de liens à partir d'une page Web

J'aimerais avoir un script qui télécharge une page Web avec curl, la redirige vers w3m, ce qui la supprime de tout le contenu, à l'exception du texte et des liens.

Est-il possible de spécifier pour l'option -T de w3m, plus d'un type de contenu et comment?

Pour clarifier un peu plus ma question, voici un exemple:

curl --user-agent "Mozilla/4.0" https://askubuntu.com/questions -s | w3m -dump -T text/html

qui renvoie uniquement le texte de la page de questions Ask Ubuntu mais sans lien. Si w3m ne peut pas le faire, existe-t-il un autre outil capable de gratter du texte et des liens simultanément?

1
S.R.

Eh bien, après des recherches approfondies par moi-même, je suppose qu'il n'y a pas un tel outil ...

Cependant, pour ce que ça vaut, j'ai découvert hxnormalize qui a rendu l'écriture d'un script particulier dont j'avais besoin, une question relativement simple.

1
S.R.