Nous exploitons beaucoup de sites et nous commençons à avoir beaucoup de ces erreurs dans les Outils pour les webmasters:
Plan du site est HTML
Votre plan Sitemap semble être une page HTML. Utilisez plutôt un format de plan de site pris en charge.
Un des sitemaps problématiques:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.same_domain.co.uk/folder/file1.shtml</loc>
<lastmod>2011-05-11</lastmod>
<changefreq>weekly</changefreq>
<priority>0.5</priority>
</url>
<url>
<loc>http://www.same_domain.co.uk/folder/file2.shtml</loc>
<lastmod>2011-05-11</lastmod>
<changefreq>weekly</changefreq>
<priority>0.5</priority>
</url>
<url>
<loc>http://www.same_domain.co.uk/folder/file3.shtml</loc>
<lastmod>2011-05-11</lastmod>
<changefreq>weekly</changefreq>
<priority>0.5</priority>
</url>
<url>
<loc>http://www.same_domain.co.uk/folder/file4.shtml</loc>
<lastmod>2011-05-11</lastmod>
<changefreq>weekly</changefreq>
<priority>0.5</priority>
</url>
</urlset>
(Serveur: IIS)
"Ce document a été vérifié avec succès en tant que XML bien formé!" - Validateur W3C.
J'ai soumis à nouveau deux sitemaps problématiques, l'un sans modifications et l'autre avec quelques lignes supplémentaires pour garantir le traitement du document au format XML. Exécutez l'outil de diagnostic "Fetch as Googlebot". Les deux vont bien maintenant. Je vais simplement soumettre à nouveau tous les sitemaps avec l'erreur "Sitemap is HTML".
La question reste:
La suggestion de Farseeker est une bonne première étape dans la résolution des problèmes (un type de contenu text/html
produirait certainement ce résultat) - Google Webmaster Tools devrait afficher un message d'erreur différent si le fichier sitemap contient du code XML non valide.
Compte tenu de la nature temporaire du problème, avez-vous consulté les journaux de votre serveur pour déterminer si une page d'erreur avait été générée lors des demandes précédentes de Google?
Si vous générez des fichiers de sitemap de manière dynamique, une erreur de script, le délai d'expiration de la base de données ou un autre problème peut générer une page d'erreur HTML par intermittence.
En raison de l'en-tête content-type
qu'il crache. Inspectez-le avec votre outil préféré (Firebug, etc.) et voyez ce qu'il envoie.
Vous pouvez étendre l'en-tête pour inclure les éléments de schéma:
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
et ensuite valider en ligne
Si cela se produit, cela doit être le problème de Google.
Vérifiez s'il y a des problèmes du côté du serveur Web. Ou si l'adresse IP de Google est bloquée. Si vous utilisez un système de suivi basé sur un journal, essayez d'analyser l'activité de Google Bot. Nous avons récemment eu le même problème et avons découvert que, lorsque Google changeait d'adresse IP, nous ne permettions pas à Google Bots d'explorer en raison de l'exploration de données. Le problème a finalement été résolu.