web-dev-qa-db-fra.com

Comment Google reconnaît-il la date de publication d'un message?

Lorsque je recherche quelque chose dans Google, je vois parfois la date de publication de l'article/l'article en dessous. J'ai également recherché un article de mon choix sur mon site équipé de Wordpress, et Google reconnaît également sa date de publication.

Lorsque j'ouvre la source de mon site Web, je ne vois aucune balise spéciale ni aucun élément indiquant la date de publication. Il est uniquement écrit dans une division régulière, sans rien de spécial étiqueté qui indiquerait à la SE que c'est la date de publication (je pourrais aussi avoir d'autres dates sur la page).

Alors, est-il codé en dur dans Google l'emplacement exact de la date de publication de Wordpress dans l'arborescence DOM, ou est-ce qu'il me manque quelque chose?

Je construis un nouveau site Web, avec mon propre CMS, et j'essaie de savoir comment implémenter la reconnaissance de la date de publication.

17
Can Poyrazoğlu

vous devez consulter la version du sitemap xml ou du flux RSS pour indexer vos données de publication via les principaux moteurs de recherche tels que Google, Yahoo et MSN. Générez un sitemap XML pour votre site Web et soumettez-le dans des outils principaux Web pour index.

4
eThan Hunt

Je viens d'avoir un problème: toutes mes pages principales ont été mises à jour il y a plus de 4 ans, même si Google le sait que ce n'est pas vrai, car les pages ont été indexées depuis si longtemps et ont considérablement changé depuis le mois au mois. Après avoir été vraiment intrigué, puis énervé, puis à nouveau intrigué, j'ai finalement trouvé le problème. Nos termes légaux étaient signifiés dans une div cachée avec un "Dernière mise à jour: 30 octobre 2007" et la div était chargée sur presque toutes nos pages. (Parce qu'il apparaît lors de l'enregistrement) Je l'ai enlevé et maintenant, je suppose que la date va soit disparaître, soit être corrigée.

Un récit édifiant et une preuve de plus qu'ils vérifient la sémantique du site plus que les détails techniques ou leur propre historique d'indexation.

7
mmdanziger

Je doute fort que la date de publication d'un article ou d'un article soit basée sur l'entrée <lastmod> d'un sitemap XML (comme d'autres l'ont suggéré) ou sur l'en-tête HTTP Last-Modified pour cette question. Un sitemap XML n'a qu'un caractère consultatif, il ne fait pas autorité. La date de dernière modification d'un document n'est probablement pas la même que la date de publication (originale) d'un article. Et, comme je l'ai mentionné dans mon commentaire en haut de la page, la dernière date de modification d'un document est probablement plus importante pour la mise en cache et peut-être déterminer les taux d'analyse. Les en-têtes HTTP Last-Modified des pages générées dynamiquement sont souvent très proches de la date/heure réelle (comme pour les blogs WordPress.).

D'autre part, un flux RSS/Atom contient ce nugget d'informations spécifique. Et en effet, sur Wordpress sites ne contenant pas la date de publication dans le contenu, la date de publication apparaît toujours dans les résultats de recherche de Google. Et autant que je sache, cela correspond à la date dans le flux RSS.

EDIT # 1: Cependant, un flux RSS ne contient pas nécessairement toutes les pages. Dans la plupart des cas, il ne doit contenir que les pages les plus récentes ou les plus récemment mises à jour. Mais il n'y a aucune raison pour que Google oublie ce qu'il a déjà lu, et si le contenu de cette page n'a pas changé, la date de la dernière modification ne devrait pas non plus l'être.

S'il n'y a pas de flux RSS, je pense que Google est assez intelligent pour analyser le contenu de la page. Particulièrement si les dates sont marquées 'sémantiquement' avec l'aide de microformats . Il est parfaitement possible que Google considère comme suit la date de publication d'un article faisant foi:

<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>

Google lit certainement microformats - hCard, hReview, etc.

J'ajouterai que je ne pense pas que Google indiquerait une date de publication à moins de trouver quelque chose d'authentique qui le suggérerait. Cela ne va pas permettre de déduire une "date de publication" sur des données spéculatives, car une "date de publication" incorrecte n'est utile à personne et Google aurait beaucoup de succès pour elle!

Et juste pour le compte rendu (si @Tom suggère le contraire :) Je pense que la date de publication devrait être affichée de manière visible dans les publications/articles. Beaucoup ne le font pas, ce qui peut être frustrant pour le lecteur, en particulier lors de la recherche de problèmes technologiques. Vous pouvez constater que lire à la moitié de l'article est obsolète!

EDIT # 2: Depuis, j'ai rencontré un désagrément similaire que @mmdanziger a détaillé dans sa réponse. Sur un de mes anciens sites, le texte "Site mis à jour le dimanche 17 juin 2012" (non balisé de manière particulière) se trouve en haut de chaque page (écrite). à la page avec JavaScript !!). Cette même date a été sélectionnée par Google et apparaît maintenant à côté de plusieurs pages (mais pas toutes) qui apparaissent dans SERPS - il ne s'agit certainement pas de la date de publication de la page. Il semblerait que Google supprime simplement la page pour une chaîne de la forme "dernière mise à jour ( datestring )" (après avoir traité le code JavaScript !!). Ce site particulier n'a pas de flux RSS. Le site contient un fichier Sitemap.xml mais les dates sont différentes.

J'ai remarqué un comportement similaire sur d'autres sites également.

7
MrWhite

Je pense que Google utilise Sitemap et les flux RSS pour reconnaître la date de publication. Vous pouvez implémenter cette fonctionnalité dans votre CMS en créant un plan de site XML conformément à Standards .

<lastmod>2011-08-18</lastmod>
5
Vamsi Krishna B

Je pense qu’il cherche intelligemment les dates sur la page et s’il est convaincu qu’il s’agit de la date pertinente.

C'est parfois un peu difficile, car je pense que cela peut avoir un impact négatif sur SERP au clic, je suppose que cela peut avoir un impact positif temporaire s'il s'agit d'un article/message récent, mais je suis à peu près sûr que mes sites serait mieux sans elle (les chercheurs de Google ne seraient peut-être pas mieux sans elle!)

Il n'y a pas d'options pour le contrôler via Google, seulement avec vos propres méthodes. Tu peux soit:

  • Remplacez les dates par des images générées dynamiquement pour empêcher Google de le découvrir, mais cela peut entraîner d'autres problèmes tels que l'alignement visuel/l'affichage/l'accessibilité des polices, etc.
  • Supprimez toutes les dates des pages (cela peut à nouveau être frustrant pour les visiteurs/utilisateurs qui souhaitent découvrir l’âge d’une source si vous disposez d’informations pertinentes).

Pour ces raisons, je voudrais simplement l'ignorer.

1
Tom Gullen

Selon Jonh Mueller de Google:

Nous utilisons une variété de signaux pour déterminer la date à afficher ou s'il est judicieux d'en afficher un du tout. ce n'est pas lié à un attribut spécifique.

John Mueller - Twitter

Cependant, je trouve très probablement que Google recherche des dates sur des pages Web aux endroits suivants:

  • À la vue de la page, en utilisant le machine learning
  • Schema.org données structurées, surtout si les données peuvent également être trouvées à la vue à la page
1