web-dev-qa-db-fra.com

TagSoup vs Jsoup vs analyseur HTML vs HotSax vs

L'abondance d'analyseurs HTML parmi lesquels choisir (et s'en tenir) est ahurissante:

http://Java-source.net/open-source/html-parsers

Comment choisir celui qui répond le mieux aux exigences suivantes:

  1. Mature (moins de bugs que le reste)
  2. Vivre et respirer (c'est-à-dire être maintenu)
  3. Rapide et économe en ressources (conçu pour fonctionner sur Android)

D'après votre expérience, quel analyseur HTML recommanderiez-vous (pour répondre aux exigences ci-dessus) et pourquoi?

41
Regex Rookie

Eh bien, j'ai trouvé la réponse, qui a été donnée par @BalusC sur un fil différent :

  1. Si vous souhaitez simplement utiliser un outil basé sur XML pour le parcourir: JTidy .
  2. Si vous aimez tester le code HTML: HtmlUnit
  3. Si vous souhaitez extraire des données spécifiques du HTML: Jsoup

Merci @BalusC.

39
Regex Rookie