web-dev-qa-db-fra.com

Comment demander aux moteurs de recherche de ne pas indexer l'intégralité du domaine de l'image sans leur faire gaspiller de la bande passante du serveur ni faire en sorte que Google se plaint

D'après ce que j'ai appris, il est possible que toutes les URL d'un domaine servant uniquement des images ne soient pas indexées, à savoir l'en-tête HTTP x-robots-tag. Maintenant, je vérifie mes journaux et découvre que Google et Baidu téléchargent tout le contenu des URL de l'image. J'espérais qu'ils arrêteraient de télécharger quand ils seraient tombés sur cette ligne:

X-Robots-Tag: noindex, noimageindex

Soit j'ai mal formaté cette ligne (j'ai utilisé un mauvais boîtier ou un ordre de valeurs incorrect, etc.), soit les moteurs de recherche sont tout simplement stupides et ils ont juste décidé de tout télécharger pour ne pas gaspiller l'argent des clients.

J'ai examiné le fichier robots.txt et envisagé d'utiliser la ligne noindex, mais lorsque je l'ai fait, Google s'est plaint de ne pas avoir accès à ce qu'ils appellent une "URL importante" quand ce n'est pas important.

Je ne veux pas bloquer leurs adresses IP car j'ai un contenu textuel sur un autre domaine qui s'exécute sur le même serveur que je veux qu'ils indexent.

Je suis tenté de proposer aux moteurs de recherche l'équivalent de ce que les utilisateurs obtiendront s'ils ont demandé l'URL via la méthode HEAD (en-têtes complets mais pas de contenu réel), mais je risque d'être pénalisé pour le masquage de contenu.

Y a-t-il quelque chose que je puisse faire pour remédier à cela?

2
Mike

Le moyen le plus efficace consiste à utiliser un fichier robots.txt avec Disallow: / comme seule directive et à le placer dans la racine Web du domaine images. Lorsque cela sera fait, les moteurs de recherche n'analyseront pas les images. La cause de l'erreur de Google est uniquement due à une évaluation informatisée qui estimait que les images devaient peut-être être explorées, mais cela reste à votre discrétion. Comme vous ne voulez pas que les images soient indexées, vous pouvez ignorer en toute sécurité cette erreur de Google, car cela indique que les images ne seront pas explorées, comme vous le souhaitez.

1
Chris Rutherfurd

Google prend en charge Noindex: dans le fichier robots.txt. Voir Comment “Noindex:” dans robots.txt fonctionne-t-il? Il s’agit d’une fonctionnalité bêta et il est possible qu’elle supprime sa prise en charge. Pour cette raison, j'utilisais le fichier robots.txt :

User-Agent: *
Disallow: /

User-Agent: Googlebot
Noindex: /

User-Agent: bingbot
Disallow:

User-agent: Yahoo! Slurp
Disallow:

User-agent: Yandex
Disallow:

Avec le titre que vous mentionnez dans votre question:

X-Robots-Tag: noindex, noimageindex

Dans ce cas, seuls trois araignées exploreront votre contenu pour savoir qu’ils ne peuvent pas l’indexer. Googlebot ne va pas explorer ou indexer. Les robots non-moteurs de recherche ne seront même pas autorisés à ramper du tout.

Si Googlebot cesse de prendre en charge Noindex:, il commence à explorer et découvre qu'il ne peut pas indexer.

0