Je cours Apache 2 et une grande partie de nos pages vues proviennent de bots. La plupart d'entre eux sont légitimes, tels que Google et Bing.
Je veux analyser les journaux et obtenir des statistiques précises sur le nombre de visiteurs que je reçois. J'ai donc mis à jour temporairement robots.txt pour interdire les robots sur toutes les pages. Je sais que cela n'est que partiellement efficace pour empêcher l'accès à un bot, mais cela me convient.
Comment le fait de refuser des robots affectera-t-il les utilisateurs recherchant ce site? Cela empêchera-t-il les utilisateurs de trouver la page sur Google?
Banner banning ne laissera aucun moteur de recherche récupérer le contenu du site.
En fin de compte, vous ne classerez aucun mot-clé. Il serait presque impossible de trouver votre page sur Google. Vous pourriez obtenir du trafic de référence mais pas de trafic organique.
Remarque: Robots.txt n'interdit pas les bots mais leur demande de ne pas indexer ni explorer le site. Quels sont les principaux moteurs de recherche comme Google, Yahoo et Bing?.
Interdire les robots est une activité infructueuse. Les seuls robots qui obéiront à robots.txt sont des robots utiles comme Googlebot et Bingbot. Les robots malveillants ou même les robots des services de recherche moins scrupuleux ignoreront votre fichier robots.txt.
Interdire les robots n'est qu'un moyen sûr de perdre tout le classement des pages avec les principaux moteurs de recherche ET vos journaux seront toujours pleins de trafic de robots.
Google peut toujours analyser les pages ignorées par le fichier robots.txt et même les répertorier Bloquer les URL avec le fichier robots.txt et Google ignore-t-il le fichier robots.txt ?
Cela rendra probablement votre site très difficile voire impossible à trouver dans les moteurs de recherche, car ceux-ci n'enverront pas leurs robots pour voir ce qu'il y a sur votre site. Ils ne sauront pas quels mots vous utilisez, il leur sera donc difficile de dire quelles recherches votre site pourrait intéresser.
Cependant, il est possible que votre site soit toujours affiché dans les résultats de recherche, en particulier si un site de rang élevé possède un lien vers votre site. Google et éventuellement d'autres moteurs peuvent utiliser les informations provenant du lien uniquement pour décider d'afficher votre site dans leurs pages de résultats.
Les données des journaux du serveur sont limitées et auront inévitablement un rapport bruit/signal élevé, en raison de facteurs tels que les robots, la mise en cache, le CDN.
L’analyse des vues de page est une tâche qui concerne l’analyse basée sur les balises de page.
La bonne solution consiste à ne pas manipuler le fichier robots.txt et à analyser les journaux à la place, en regardant l'en-tête User-Agent mentionné dans les commentaires. Google, Yahoo, etc. devraient s'identifier comme des robots utilisant cet en-tête, et le fait de refuser les robots via le fichier robots.txt serait comme conduire un camion dans le classement de votre moteur de recherche. Comme @adria a dit, il existe des outils qui peuvent le faire pour vous. Un très populaire est Google Analytics , voici comment ils gérer le trafic des robots d'exploration .
Puisque votre intention déclarée est de
obtenir des statistiques précises sur le nombre de visiteurs humains que je reçois,
La solution appropriée consiste à utiliser un service tel que Google Analytics , ou New Relic , une fois inscrit, vous insérez un extrait de code javascript dans votre page (de nombreux moteurs tels que wordpress peut le faire automatiquement ou avec un plugin) qui envoie des informations au service de surveillance. Une fois mis en place, un tel service vous fournira une mine d’informations sur vos visiteurs. Google Analytics surprend par le détail avec lequel il suit les interactions des utilisateurs avec votre site.
Ces services sont mis en œuvre de manière à ne suivre que les vrais humains. Ce serait une folie d'essayer de ré-implémenter ce qu'ils font déjà si bien, et ils sont si utiles que c'est presque une folie pas utiliser un tel service.