Existe-t-il des inconvénients si mon site envoie des en-têtes NOINDEX pour tous mes actifs statiques?
Pour les fichiers image, je me réfère à ceux sans valeur, par exemple. images de fond, images de boutons, etc.
Mise à jour: plus d'informations de base
J'ai cette préoccupation depuis que Google a récemment déclaré qu'ils exécutaient également JS et qu'ils pourraient récupérer du contenu via Ajax. Ainsi, par exemple, si j'envoie noindex pour mon script jQuery afin que Google ne puisse pas les utiliser pour charger Ajax, je suppose que ce n'est pas bon pour le référencement de mon site, non?
(Je travaille avec les équipes d'analyse et d'indexation de Google) Commençons par la plus simple: supposons que vous ne souhaitiez pas que ces fichiers soient utilisés pour l'indexation, vous pouvez simplement utiliser le fichier robots.txt pour interdire l'analyse des scripts et des réponses. Cela empêche Googlebot d'accéder aux URL et l'empêcherait également de les utiliser pour autre chose. Les URL elles-mêmes peuvent être indexées (tout comme les URL basées sur des facteurs tels que des liens vers les URL, sans avoir été analysées), mais elles ne peuvent pas être traitées ou exécutées. Notre référence robots.txt a plus de détails pour ceux qui aiment les détails.
Par contre, si vous souhaitez que le contenu (et éventuellement les réponses, etc.) soit indexé: , nous vous recommandons de ne pas utiliser l'en-tête HTTP noindex x-robots-tag pour le contenu incorporé (JavaScript, CSS , réponses, etc.) si vous le souhaitez potentiellement utilisé pour l’indexation. Par exemple, si un fichier JavaScript utilise une demande AJAX pour récupérer le contenu de votre serveur qui est ensuite affiché, tous ces éléments doivent d’abord être explorables (le fichier robots.txt ne l’interdit pas), et nous vous recommandons de ne pas les servir avec un en-tête HTTP "noindex" x-robots-tag. Nous ne pouvons pas garantir que nous serons en mesure de traiter et d'indexer tout le JavaScript, mais nos systèmes obtiennent de mieux en mieux au fil du temps.
En général, la plupart des sites ne lient pas leurs fichiers JavaScript ou CSS à l'aide de liens HTML normaux, ils les référencent simplement dans leurs fichiers HTML. De ce fait, la plupart du temps, nous n'indexerons pas ces fichiers séparément (et même si c'est le cas, votre site Web contient probablement un contenu plus pertinent que ce que nous trouvons dans les fichiers JavaScript :)).
Les premières choses d'abord. Google n'indexe pas certains types de fichiers tels que CSS, JavaScript, les images, etc. Mais, dites-vous, Google indexe les images. Eh bien oui et non. Il indexe les images en utilisant le texte qui entoure l'image et les valeurs de lien associées à l'image. Oui, lors de la mise à jour de leurs fonctionnalités, Google a indexé certains de ces fichiers, mais Google ne les a pas perçus comme du contenu ou une valeur directe. Cela a été découvert avec plusieurs versions du même JavaScript dans son index et le bavardage a commencé sérieusement. Moi aussi, j'ai trouvé mon fichier CSS indexé il y a des années, mais il a disparu depuis longtemps. C'est tellement 2009! Ce sont des informations anciennes qui ne s'appliquent plus. C'est ça. Aucun soucis à se faire ici.
Deuxièmement, Google ne peut pas accéder à tous les éléments Ajax, du moins pas aux zones de texte compatibles avec Ajax, comme ce que Google utilise pour la recherche. En fait, ils décrivent comment rendre les éléments Ajax explorables ici: https://developers.google.com/webmasters/ajax-crawling/ . Google ne peut pas et ne saisira pas de valeurs dans une zone de texte compatible Ajax pour rechercher des éléments. Ils le disent réellement. La portée de Google Ajax est bien définie et a commencé avec Facebook et Disqus pour les commentaires. http://www.seroundtable.com/google-ajax-indexing-14241.html
Les premiers rapports selon lesquels Google exécute JavaScript et peut accéder à Ajax font partie de la confusion. Il s’agit là d’un cas où JavaScript génère des URL. C'était pour trois raisons. une pour rechercher plus profondément et ne pas manquer des liens valides, deux pour évaluer JavaScript pour le chargement par mot clé et trois pour vérifier le gonflement de JavaScript. Plus tard, d'autres raisons ont été ajoutées, telles que les aperçus de page et l'évaluation des temps de réponse. Il permet à Google d’indexer tout le potentiel d’une page. Vous pouvez voir la portée complète ici: https://www.distilled.net/blog/seo/google-stop-playing-the-jig-is-still-up-guest-post/
Pour être clair, jusqu'à présent, Google n'abuse pas de sites Web et vous n'avez rien à craindre. Ce ne sont pas des éléments d'indexation que vous ne voudriez pas indexer. Toutefois, si vous voulez que Google et d’autres personnes le fassent, BTW-Bing le fait également pour accéder à ces éléments. Google recommande de placer des lignes spécifiques pour chaque élément/ressource de votre fichier robots.txt, comme d’habitude. Vous pouvez lire la recommandation à mi-chemin sur cette page: http://googlewebmastercentral.blogspot.com/2011/11/get-post-and-safely-surfacing-more-of.html .
Je vous mets toutefois en garde contre cela. À moins que vous n'ayez un problème, je ne prendrais aucune mesure. La raison répond à la partie SEO de votre question. Le blocage de certains éléments peut empêcher Google et d’autres d’indexer correctement votre site et de renvoyer des résultats parfaitement pertinents. Toutefois, si vous avez un élément d'actualités JavaScript (actualité réelle et non d'actualité du site), par exemple, cela pourrait fausser les résultats de votre recherche. Dans ce cas, vous souhaiterez peut-être restreindre l'accès à JavaScript à l'aide du fichier robots.txt. C’est là que vous devez réfléchir. Prends ton temps. Il n'y a pas de crise à gérer. Lorsque vous avez évalué votre site, prenez des décisions éclairées et agissez. Généralement, vous ne devriez rien faire du tout, sauf si un résultat JavaScript ne représente pas votre sujet de contenu ou si Google et d'autres déclenchent un JavaScript et causent des problèmes.
TLDR; Non
Ainsi, par exemple, si j'envoie noindex pour mon script jQuery afin que Google ne puisse pas les utiliser pour charger Ajax, je suppose que ce n'est pas bon pour le référencement de mon site, non?
Non, vous semblez confus par ce que fait NOINDEX.
NOINDEX: Autorise l'exploration en suivant les liens qu'il contient. Interdit l'indexation (qui inclurait automatiquement NOARCHIVE et NOSNIPPET)
NOFOLLOW: Permet l'indexation (généralement, ils ne le font pas mais pourraient l'être). Interdit l'exploration, les liens suivants, montrant l'extrait de code.
Ce que Google recommande est de permettre aux robots de "suivre" la page. Si vous définissez une balise d'en-tête NOINDEX, cela permet à Google de suivre/analyser la page, mais pas de l'indexer.
Par conséquent, tout ce que vous devez faire est de ne PAS définir la balise "NOFOLLOW". Cela bloquerait les robots à suivre et à analyser le script. La définition de la balise NOINDEX convient.
PS: Cela équivaut à définir la balise d’en-tête NOINDEX sur des fichiers tels que "robots.txt" et "sitemap.xml ". Parce que Google les indexe assez souvent.
Exemple: www.google.com/search?q=filetype%3Atxt+%22robots%22&gws_rd=ssl
Pour plus:
si j’envoie noindex pour mon script jQuery, afin que Google ne puisse pas les utiliser pour charger Ajax, je suppose que ce n’est pas bon pour le référencement de mon site, non?
Vous avez raison, ce n'est pas bon. Google sait très bien utiliser vos fichiers CSS et JavaScript pour mieux représenter votre site dans les résultats de recherche.
Suivez cette leçon avec Matt Cutts sur les CSS, JavaScript, l’exploration et l’indexation: https://www.youtube.com/watch?v=m293K8JR2j4