Comment savoir quand une URL particulière a été indexée pour la première fois par Google? Je préférerais une solution qui fonctionne même pour les URL des concurrents que je ne possède pas.
Pour connaître l'âge d'une URL, vous pouvez suivre ce lien en remplaçant www.example.com
par l'URL de votre choix:
https://www.google.com/search?tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000&q=site%3Ahttp%3A%2F%2Fwww.example.com&safe=active&gws_rd=ssl
Par exemple, voici résultat de Google pour le méta-site de Stack Overflow :
Sinon, le Wayback machine est aussi une bonne solution mais moins précise de mon expérience.
Zistoloen a trouvé un moyen d’afficher la date à laquelle Google a indexé pour la première fois le contenu de la page. Je l'ajoute aussi à ma réponse parce que je pense pouvoir l'expliquer plus clairement.
Google montrera ensuite la date à laquelle il a découvert le contenu figurant sur la page dans le résultat de la recherche.
Si la page est mise à jour avec un nouveau contenu, Google met également à jour cette date. Il s’agit donc plutôt d’une date "premier indexé de ce contenu" plutôt que "premier indexée de cette URL".
Le cache de Google pour une page indique la dernière indexation de la page. Vous pouvez voir que la page d'accueil de Stack Exchange a été indexée pour la dernière fois aujourd'hui:
Une autre option utilise le machine Wayback d'Internet Archive . Cela vous montre à quoi ressemblait une page dans le passé. Vous pouvez savoir quand les pages ont été publiées pour la première fois. Google et Internet Archive explorent et utilisent la page peu de temps après sa première publication.
Il se peut que soit aucun moyen de savoir quand une page Web arbitraire a été indexée pour la première fois par Google - certainement, je ne connais aucun moyen de le faire. Il est possible que Google ne stocke tout simplement pas ces informations, car il n'y a aucune raison réelle pour laquelle ils en auraient besoin. En outre, même s'ils stockent ces informations, ils n'ont vraiment aucune raison de les rendre librement accessibles à des tiers.
(Si c'est votre propre page et que vous avez accès aux anciens journaux d'accès au serveur Web, rien de plus simple: il suffit de rechercher dans les journaux la première visite de Googlebot sur cette page. Sinon, il est peut-être impossible de le savoir.)
Dans tous les cas, la méthode décrite par Zistoloen et Stephen Ostermiller dans leurs réponses indique généralement not== la date à laquelle une URL particulière a été indexée pour la première fois par Google. Au lieu de cela, il indique la date à laquelle Google pense le contenu de l'URL a été publié ou mis à jour en dernier lieu, et est souvent basé sur les tentatives plus ou moins fiables de Google visant à "renifler" les dates du contenu de la page elle-même.
Dans cette vidéo , Matt Cutts, de Google, explique brièvement comment ces dates sont choisies. Pour plus de commodité, j'ai retranscrit le morceau pertinent de la vidéo (environ 2:09 à 2:22) ci-dessous:
"... souvent vous voyez la date, comme nous l'inférons, ou quand nous l'avons vue pour la première fois, chaque fois que nous explorions cette page, ou si nous pouvons la trouver quelque part sur la page, et nous pouvons extraire cette date, vous ' Je le verrai au tout début de l'extrait. "
Pour les pages telles que les articles de blog, les pages wiki ou les questions Stack Exchange, où le logiciel exécutant le site indique automatiquement une date de création/modification précise sur la page elle-même, la date indiquée par Google est susceptible de correspondre. Pour les autres types de pages, cependant, le renifleur de date de Google doit travailler plus fort, et il ne réussit pas toujours correctement (dans ce contexte, quel que soit le "droit").
En particulier , ces dates sont fondamentalement inutiles pour déterminer le délai d'indexation d'une page pour deux raisons:
Si une page a été modifiée récemment et que la date de modification est affichée bien en évidence sur cette page, Google peut la saisir comme "date" de la page, même si la modification était complètement anodine.
Par exemple, cette page de wiki plutôt ancienne (quel archive.org indexé pour la première fois en 20 ) est actuellement horodaté par Google comme datant du 10 novembre 2014 - date à laquelle il a été récemment modifiée, comme indiqué au bas de la page. Le changement qui s'est passé à cette date? Il suffit de supprimer un lien unique au bas de la page.
Inversement, Google semble heureux d’accepter de très anciennes "dates de publication" s’il les trouve sur la page, même celles antérieures à le lancement du World Wide Web .
Par exemple, cette page sur un ancien concours de programmation est daté par Google jusqu'au 15 septembre 1986 - en fait, la date de l'événement décrit sur la page. De même, cette page documentant une grève étudiante en 197 est daté par Google jusqu'au 10 mai 1970 (date de l'un des documents numérisés figurant sur la page), et, ce qui est encore plus absurde, cette page de manuel Linux est datée par Google jusqu'au 4 novembre 1989 (date donnée au hasard sur la page).
Vous pouvez trouver beaucoup plus d'exemples de ce type en utilisant la recherche de plage de dates personnalisée décrite par Stephen et Zistoloen, mais en définissant l'extrémité supérieure de la plage sur, par exemple, 6 août 1991 .