J'aimerais avoir un script qui télécharge une page Web avec curl, la redirige vers w3m, ce qui la supprime de tout le contenu, à l'exception du texte et des liens.
Est-il possible de spécifier pour l'option -T de w3m, plus d'un type de contenu et comment?
Pour clarifier un peu plus ma question, voici un exemple:
curl --user-agent "Mozilla/4.0" https://askubuntu.com/questions -s | w3m -dump -T text/html
qui renvoie uniquement le texte de la page de questions Ask Ubuntu mais sans lien. Si w3m ne peut pas le faire, existe-t-il un autre outil capable de gratter du texte et des liens simultanément?
Eh bien, après des recherches approfondies par moi-même, je suppose qu'il n'y a pas un tel outil ...
Cependant, pour ce que ça vaut, j'ai découvert hxnormalize qui a rendu l'écriture d'un script particulier dont j'avais besoin, une question relativement simple.