Nous hébergeons le contenu statique de nos sites sur S3. Nous avons également un fichier robots.txt très ouvert;
User-agent: *
Allow: *
En effet, dans les outils pour les webmasters, je reçois des milliers d’avertissements Sitemap contains urls which are blocked by robots.txt.
Les images sont répertoriées dans mon plan Sitemap avec un élément de contenu et utilisent le chemin correct. http://mybucket.s3.Amazon.com/image/path.jpg .
Puis-je ajouter une URL distante dans mon fichier robots.txt? Je suppose, avec un fichier robots.txt aussi généreux sur s3, qu'il s'agit d'une restriction dans le fichier robots.txt de mon site.
Est-ce que quelqu'un d'autre a stocké des images sur s3 et les a placées dans un sitemap?
Allow: *
devrait en réalité être Allow: /
.
Cela pourrait être le problème ... parce que, en réalité, utiliser Allow:
n'a aucune signification en soi - son objectif est de permettre un sous-chemin dans un chemin refusé. Dans l'état actuel des choses, il semble possible que votre fichier soit mal interprété.
Tout ce qui n'est pas refusé est censé être implicitement autorisé.
Si vous voulez tout autoriser, vous devriez plutôt utiliser Disallow:
sans rien après ... ou bien sûr, vous pouvez simplement supprimer votre fichier /robots.txt
, car une erreur 4xx doit être interprétée par un robot "pas de restrictions ici - amusez-vous!"