web-dev-qa-db-fra.com

Google Webmaster Tools indique que mon sitemap XML "semble être une page HTML"

Nous exploitons beaucoup de sites et nous commençons à avoir beaucoup de ces erreurs dans les Outils pour les webmasters:

Plan du site est HTML
Votre plan Sitemap semble être une page HTML. Utilisez plutôt un format de plan de site pris en charge.

Un des sitemaps problématiques:

<?xml version="1.0" encoding="UTF-8"?> 
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> 
    <url> 
        <loc>http://www.same_domain.co.uk/folder/file1.shtml</loc> 
        <lastmod>2011-05-11</lastmod> 
        <changefreq>weekly</changefreq> 
        <priority>0.5</priority> 
    </url> 
    <url> 
        <loc>http://www.same_domain.co.uk/folder/file2.shtml</loc> 
        <lastmod>2011-05-11</lastmod> 
        <changefreq>weekly</changefreq> 
        <priority>0.5</priority> 
    </url> 
    <url> 
        <loc>http://www.same_domain.co.uk/folder/file3.shtml</loc> 
        <lastmod>2011-05-11</lastmod> 
        <changefreq>weekly</changefreq> 
        <priority>0.5</priority> 
    </url> 
    <url> 
        <loc>http://www.same_domain.co.uk/folder/file4.shtml</loc> 
        <lastmod>2011-05-11</lastmod> 
        <changefreq>weekly</changefreq> 
        <priority>0.5</priority> 
    </url> 
</urlset>

Pourquoi les GWT penseraient-ils que c'est autre chose que XML?

(Serveur: IIS)


Modifier:

"Ce document a été vérifié avec succès en tant que XML bien formé!" - Validateur W3C.


Modifier:

J'ai soumis à nouveau deux sitemaps problématiques, l'un sans modifications et l'autre avec quelques lignes supplémentaires pour garantir le traitement du document au format XML. Exécutez l'outil de diagnostic "Fetch as Googlebot". Les deux vont bien maintenant. Je vais simplement soumettre à nouveau tous les sitemaps avec l'erreur "Sitemap is HTML".

La question reste:

Pourquoi est-ce arrivé? Pourquoi les GWT ont-ils pensé que ces sitemaps XML étaient du HTML?

6
Adam Lynch

La suggestion de Farseeker est une bonne première étape dans la résolution des problèmes (un type de contenu text/html produirait certainement ce résultat) - Google Webmaster Tools devrait afficher un message d'erreur différent si le fichier sitemap contient du code XML non valide.

Compte tenu de la nature temporaire du problème, avez-vous consulté les journaux de votre serveur pour déterminer si une page d'erreur avait été générée lors des demandes précédentes de Google?

Si vous générez des fichiers de sitemap de manière dynamique, une erreur de script, le délai d'expiration de la base de données ou un autre problème peut générer une page d'erreur HTML par intermittence.

2
danlefree

En raison de l'en-tête content-type qu'il crache. Inspectez-le avec votre outil préféré (Firebug, etc.) et voyez ce qu'il envoie.

3
Mark Henderson

Vous pouvez étendre l'en-tête pour inclure les éléments de schéma:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">

et ensuite valider en ligne

Si cela se produit, cela doit être le problème de Google.

1
paulmorriss

Vérifiez s'il y a des problèmes du côté du serveur Web. Ou si l'adresse IP de Google est bloquée. Si vous utilisez un système de suivi basé sur un journal, essayez d'analyser l'activité de Google Bot. Nous avons récemment eu le même problème et avons découvert que, lorsque Google changeait d'adresse IP, nous ne permettions pas à Google Bots d'explorer en raison de l'exploration de données. Le problème a finalement été résolu.

0
Tapan Patel