J'ai un plan du site généré quotidiennement avec de nombreux liens vers des pages produits. Ces produits sont importés quotidiennement à partir d'une autre source de données. Étant donné que la mise à jour consiste à supprimer toutes les informations actuelles sur le produit et à les remplacer par les nouvelles informations importées, la date de dernière modification est toujours reportée d'un jour. Ceci est également utilisé dans le plan du site. Même pour les produits qui n'ont pas changé. Toutes les pages produits prétendent avoir été mises à jour.
Google va-t-il sanctionner le site Web en prétendant que les pages ont changé de jour en jour alors qu'elles ne l'ont pas été?
Ma solution serait de ne modifier l'entrée que si les nouvelles données de produit importées diffèrent des données précédentes. Je veux juste m'assurer que c'est une mise à jour utile à faire, alors que je pourrais aussi passer mon temps sur d'autres améliorations.
Je n'ai jamais entendu parler d'une pénalité pour cette raison. Au pire, vous perdez le temps de l'araignée, mais c'est en partie pourquoi nous avons des ordinateurs: faire des choses répétitives fastidieuses. Pourtant, vous devriez idéalement, vous résolvez le problème.
Ce...
Ma solution serait de ne modifier l'entrée que si les nouvelles données de produit importées diffèrent des données précédentes.
... est ce que vous devriez faire en premier lieu, quelles que soient les considérations externes telles que les sitemaps, etc. Si votre contenu n'est pas différent (et j'inclurais la suppression et le remplacement par des informations identiques dans cette description), votre lastmod
date ne devrait pas être modifié. Ici, vous gaspillez vos propres ressources. Vous n'avez pas dit combien de produits sont en cause, mais il y aura un moment où ce processus deviendra lent et coûteux en calcul.
Je n'ai jamais aimé l'idée de mettre à jour <lastmod>
tous les jours, car ce n'est pas seulement mauvais, c'est un moteur de recherche trompeur.
Dans un post sur SO , Gary Illyes de Google a écrit:
La balise lastmod est facultative dans les sitmaps et, dans la plupart des cas, elle est ignorée par les moteurs de recherche, car les webmasters font un travail horrible en la maintenant.
J'ai généralement préconisé soit d'utiliser <lastmod>
correctement, soit pas du tout. Si vous ne le laissez pas (ainsi que <changefreq>
& <priority>
), le fichier lui-même est plus petit et plus rapide à lire.
Je ne travaille pas pour Google et je ne peux pas dire avec certitude ce qu'ils font réellement, mais le moyen raisonnable pour eux de traiter <lastmod>
les horodatages seraient une astuce pour ne pas perdre de temps à explorer à nouveau les pages que n'ont pas modifiées.
Ainsi, si vous signalez que toutes vos pages sont modifiées tous les jours, Googlebot continuera simplement à explorer toutes vos pages dans l'ordre de votre choix, plutôt que de se concentrer uniquement sur les pages qui ont été modifiées. En fait, c'est comme si vous n'aviez signalé aucun horodatage de la dernière modification.
La principale raison de fournir des horodatages <lastmod>
corrects est que les modifications apportées à votre site s'affichent plus rapidement dans l'index de Google. Si vous avez des centaines de pages sur votre site, Google mettra du temps à les explorer et à rechercher les modifications éventuelles. Toutefois, si vous indiquez à Googlebot quelles pages ont été modifiées récemment, il peut les explorer en premier et éviter de perdre autant de temps en reste.
Bien sûr, vous pouvez simplement augmenter le taux d’exploration de Googlebot dans Webmaster Tools et espérer que tout ira pour le mieux. Mais en réalité, il ne devrait pas être trop difficile de faire en sorte que votre script de mise à jour conserve les horodatages. Par exemple, je suppose que vous faites actuellement quelque chose comme ceci:
for each product do:
write new page content into product page file;
end do;
Si c'est le cas, changez le en quelque chose comme ceci:
for each product do:
read old page content from product page file into string A;
write new page content into string B;
if A is not equal to B then:
write string B into product page file;
end if;
end do;
Non, tout simplement ignore les informations vous avez fourni lorsque cela est incorrect. Dans ce cas, les robots Web déterminent eux-mêmes à quelle fréquence ils doivent analyser vos pages.
Non. Google utilisera lastmod
comme indice (comme pour toutes les valeurs de sitemap), mais s’il décide que votre contenu ne sera pas mis à jour quotidiennement, il l’ignorera tout simplement et reverra vos pages selon son propre calendrier.
Google ne vous pénalisera pas pour cela. Afin d'obtenir une pénalité, vous devez vraiment aller au chapeau noir sur le cul de Google, alors ne vous inquiétez pas pour ça. Google va bientôt savoir si votre contenu contient des modifications (c'est ce sur quoi ils travaillent depuis quelques années) et utiliser la propriété lastmod comme indice.
Je vous suggère de lire ceci Meilleures pratiques pour les sitemaps XML et les flux RSS/Atom
Dernière heure de modification
Spécifiez une heure de dernière modification pour chaque URL dans un sitemap XML et un flux RSS/Atom. La dernière heure de modification doit correspondre à la dernière fois que le contenu de la page a changé de manière significative. Si une modification est censée être visible dans les résultats de la recherche, la dernière heure de modification doit être celle de cette modification.
XML sitemap uses <lastmod> RSS uses <pubDate> Atom uses <updated>
Assurez-vous de définir ou de mettre à jour correctement l'heure de la dernière modification:
Specify the time in the correct format: W3C Datetime for XML sitemaps, RFC3339 for Atom and RFC822 for RSS. Only update modification time when the content changed meaningfully. Don’t set the last modification time to the current time whenever the sitemap or feed is served.