Analyser HTML dans Python

Question

Quelle est ma meilleure option pour analyser HTML si je ne peux pas utiliser BeautifulSoup ou lxml? J'ai du code qui utilise SGMLlib mais c'est un peu bas niveau et il est maintenant obsolète.

Je préférerais que cela puisse endommager un peu de code HTML malformé, bien que je sois presque sûr que la plupart des entrées seront assez propres.

Andrei Taranchenko · Accepted Answer

Python a un analyseur HTML natif , mais le wrapper Tidy suggéré par Nick serait probablement un bon choix également. Tidy est une bibliothèque très courante, (écrite en C est-ce?)

Gussisaurio · Answer

Vous pouvez installer lxml et de nombreux autres modules python facilement et de manière transparente sur le Mac (OS X) en utilisant Pallet, qui est le GUI officiel MacPorts

Le nom du module est py27-lxml. Facile comme 1,2,3.

Nick Presta · Answer

Peut-être que µTidylib répondra à vos besoins?

rudyryk · Answer

html5lib est bon:
http://code.google.com/p/html5lib/

Mise à jour: Le lien ci-dessus est rompu. Un miroir tiers ci-dessus est accessible à partir de https://github.com/html5lib/gcode-import

seagulf · Answer

htql est bon pour gérer le html mal formé:

http://htql.net/

Joe Bane · Answer

http://www.xmlhack.com/read.php?item=1392 http://sourceforge.net/projects/pirxx/

http://pyxml.sourceforge.net/topics/

Je n'ai pas beaucoup d'expérience avec python, mais j'ai utilisé Xerces (de la fondation Apache) dans le passé et je l'ai trouvé très utile. La courbe d'apprentissage n'est pas mauvaise non plus, bien que je ne vienne pas d'un point de vue python. Je vous suggère cependant de le considérer. (Les deux premiers liens que j'ai inclus discutent python s'interface avec Xerces et le dernier est le premier hit google sur "python xml").