web-dev-qa-db-fra.com

Comment correctement (dis) autoriser le bot archive.org? Est-ce que les choses ont changé, si oui quand?

J'ai un site Web pour lequel je ne veux surtout pas être indexé par les moteurs de recherche, mais je veux le conserver pour l'éternité sur archive.org. Donc, mon robots.txt commence par ceci:

User-agent: *
Disallow: /

Aujourd'hui, selon archive.org , je dois ajouter ce qui suit dans mon robots.txt pour autoriser leurs robots:

User-agent: ia_archiver
Disallow:

Mais, j'avais déjà fait ce qu'ils avaient indiqué il y a quelques années, du moins, j'ai ajouté ce qui suit:

User-agent: archive.org_bot
Disallow:

Ensuite, il y a ne autre source affirmant que vous devez ajouter les deux Disallows ci-dessus, plus un autre:

User-agent: ia_archiver-web.archive.org 
Disallow:

Notez que vous devez mettre Disallow: / si vous ne voulez pas que le bot archive votre site.

Y a-t-il eu un changement avec le bot IA? Si oui, quand?

Quelle est la manière recommandée? Devrais-je autoriser les trois pour l'instant et espérer que l'IA ne changera plus de nom de bot à l'avenir?

9
guaka

Mise à jour : Comme le note @KevinFegan dans les commentaires, leur documentation a été modifiée. La partie ci-dessous décrit la manière dont Internet Archive l'a gérée par le passé (au moins en 2014).


Leur FAQ Comment puis-je exclure les pages de mon site de la Wayback Machine? fait référence à Suppression de documents de la Wayback Machine , qui indique que leur bot s'appelle ia_archiver.

Donc, cet enregistrement devrait permettre à leur bot d'explorer tout votre site:

User-agent: ia_archiver
Disallow:
7
unor

Mise à jour 2017

Archive Bot ne se soucie plus de votre fichier robots.txt.

Si vous voulez vraiment le bloquer, envoyez-leur un email d'après cette page , ou bloquez leur adresse IP via htaccess.

3
Goyllo

Le fichier robots.txt ia_archiver Une entrée interdite (avec le "/") devrait convenir au besoin que vous décrivez (pour "conserver pour l'éternité", mais pas encore publiquement).

Je viens de faire un test rapide, en commentant l'entrée ia_archiver Disallow pour un site qui en possédait depuis au moins 10 ans. Ensuite, j'ai regardé le site sur archive.org/web et il a révélé les gains accumulés en 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2014, 2015, 2016 et 2017! Cela signifie que Archive.org n'a jamais honoré de manière stricte ce que d'autres ont pensé être une déclaration "ne pas archiver" au cours de ces années, il n'a tout simplement pas exposé les copies archivées.

3
mike
  1. "ia_archiver" est maintenant (ab) utilisé par Alexa, certaines sources disent: 1 , 2 .
  2. Archive.org maintenant (2018) ne respecte plus du tout "robots.txt" . Pas seulement pour les pages mil/gov, mais pour toutes les pages. Comme je l’ai appris avec mon propre site Web privé, qui a et possède un fichier robots.txt ia-excluant depuis 2012; et maintenant, j'ai soudainement découvert qu'il avait été parcouru et sauvé toutes les années et maintenant toute l'histoire est visible. C'est un sentiment d'être trahi. > :-(
2
Carl