Type de contenu valide pour les documents XML, HTML et XHTML

Question

Quels sont les types de contenu corrects pour les documents XML, HTML et XHTML?

J'ai besoin d'écrire un robot simple qui ne récupère que ces types de fichiers.

De nos jours, http://example.net/index.html peut servir par exemple un fichier JPEG en raison de mod_rewrite. Je dois donc vérifier le type de contenu à partir de l'en-tête de la réponse et le comparer à une liste de paramètres autorisés. contenu-types.

Où puis-je obtenir une telle liste?

bobince · Accepted Answer

HTML: text/html, point final.

XHTML: application/xhtml+xml, ou uniquement si vous suivez les instructions de compatibilité HTML, text/html. Voir le W3 Note sur les types de média .

XML: text/xml, application/xml ( RFC 2376 ).

Il existe également de nombreux autres types de média basés sur XML, par exemple application/rss+xml ou image/svg+xml. Il y a fort à parier que tout non reconnu mais enregistré se terminant par +xml est basé sur XML. Voir le liste IANA pour les types de média enregistrés se terminant par +xml.

(Pour les types x- non enregistrés, tous les paris sont ouverts, mais vous espérez que +xml sera respecté.)