Pourquoi Google Outils pour les webmasters analyse-t-il les URL non valides et leurs erreurs 500?

Question

Les outils Google pour les webmasters font état de 12 000 + 500 erreurs. Eeek!

Aucune des URL ne sont valides, elles contiennent toutes www.youtube.com. Premièrement, pourquoi Google explore-t-il ces URL si elles n'existent pas? J'ai fourni un plan du site, et ils ne sont bien sûr pas dans le plan du site.

Je n'ai pas de fichier robots.txt bloquant quoi que ce soit. J'ai vérifié les redirections non valides - aucune, et les balises non fermées ou quelque chose qui jetterait www.youtube.com dans l'URL par accident - aucune.

Dans chaque "lien à partir de", l'URL de renvoi est également une mauvaise URL, avec www.youtube.com. Les outils Google ne signalent aucun logiciel malveillant et je ne peux pas consulter les journaux du serveur car l'hôte ne me le permet pas.

Vraiment coincé !! Toutes les idées appréciées!

Ilmari Karonen · Answer

Il existe (au moins) deux raisons courantes pour lesquelles des URL étranges et mutilées peuvent s’afficher comme des erreurs d’analyse dans les Outils pour les webmasters.

La première possibilité est que quelqu'un ait copié vos pages (ou d'autres pages ayant un lien vers la vôtre) et mutilé les liens au cours du processus. Cela se produit plus souvent que vous ne le pensez; voir par exemple la sixième question de cet article de blog Google Webmaster .

L’autre possibilité est que Googlebot lui-même essaie de suivre ce qu’il considère être des liens JavaScript et ce qui en fait un fouillis . Vous pouvez généralement distinguer ces deux cas en visitant la page de renvoi (qui devrait exister et être accessible, si Google réussit à l'explorer pour commencer) et cherche le nom de la page cible dans son source.

De toute façon, vous pouvez faire deux choses: soit ignorer les liens, soit en arriver à réécrire les règles pour essayer de mapper les URL brisées en adresses actives. Si vous voyez un motif évident dans les URL et connaissez bien les expressions rationnelles, je vous recommande cette dernière approche: elle nettoiera votre liste d’erreurs d’exploration et vous donnera peut-être même un petit aperçu plutôt risible, mais réel, du PageRank boost. .

Une troisième option, si vous constatez que quelqu'un copie votre contenu sans autorisation, est d'essayer de faites-les retirer de la liste . Vous pouvez même envoyer une plainte (et/ou une demande de retrait officielle) à leur fournisseur d'hébergement, si vous pensez que cela est justifié. Bien sûr, étant donné qu’ils sont apparemment liés à votre site, vous ne trouverez pas forcément que cela en vaut la peine.

webvitaly · Answer

Google indexe le site pas immédiatement toutes les pages à la fois.

Google indexant les pages d'abord le plus haut niveau. Puis, après quelques jours, Google essaie d’indexer plus profondément - le deuxième niveau de pages (les pages sur lesquelles Google a trouvé des liens au premier niveau de pages), etc. De cette façon, Google essaie d'indexer chaque page du site. Donc, Google crée une arborescence hiérarchique de liens et Google sait quelles pages sont liées à chaque page.

Ensuite, Google est venu à chaque page indexée après un certain temps et vérifie si le contenu de la page est modifié. L'intervalle d'indexation pour chaque page et chaque site est basé sur de nombreux facteurs.

Donc, si vous supprimez une page et mettez à jour tous les liens vers cette page sur toutes les autres pages, Google ne la connaît pas immédiatement et tente d'indexer la page supprimée car il est prévu de l'indexer dans son calendrier.