Bref aperçu
Mon site Web Joomla a un problème étrange avec les robots des moteurs de recherche. J'ai vérifié TOUTES les tâches standard qu'un webmaster peut faire pour s'assurer qu'il ne s'agit pas d'un problème trivial avec le fichier robots.txt ou d'autres paramètres d'optimisation de moteur de recherche. Les informaticiens de mon université n'ont aucune idée de ce qui se passe, de même que ceux qui ont essayé d'aider sur les forums de Joomla.
J'ai aussi posé cette question sur stackexchange de Pro Webmasters. Mais je commence à soupçonner qu’il ya peut-être un paramètre caché quelque part dans Joomla qui cause le problème. Donc, je pose cette question ici pour voir s'il y a un paramètre qui me manque quelque part.
Le problème actuel commence ici.
Le site Web en question est: http://gsa.ece.umd.edu/ . Il fonctionne avec Joomla 2.5.x (dernier). Le site était ouvert vers le milieu de décembre 2013 et j'ai immédiatement remarqué que le site n'était pas correctement indexé sur Google. Plus précisément, le message suivant apparaît lorsque je recherche le site Web sur Google:
ECEGSA - University of Maryland
A description for this result is not available because of this site's robots.txt – learn more.
La chose est en Décembre jusqu'à environ Mars, j'ai utilisé le fichier robots.txt Joomla par défaut qui est:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Rien ne devrait empêcher Google de rechercher sur mon site Web. Et encore plus déroutant, lorsque je vais sur les outils Google pour les webmasters, sous l'onglet "URL bloquées", lorsque j'essaie de nombreux liens sur le site, ils apparaissent tous comme "Autorisés". J'ai ensuite essayé d'ajouter un plan du site, en le mettant dans le fichier robots.txt. Cela n'a pas aidé. Même résultat exact de la recherche, même comportement dans l'onglet "URL bloquées" des outils pour les webmasters. De plus, l'onglet "sitemaps" indique pour plusieurs liens une erreur indiquant que "l'URL est effacée". J'ai essayé ces liens exacts dans les "URL bloquées" et ils sont autorisés!
J'ai ensuite essayé de supprimer le fichier robots.txt. Pas d'Utilisation. Même problème exact.
Voici un exemple de capture d'écran des outils pour les webmasters.
À ce stade, je ne peux pas expliquer de manière rationnelle pourquoi cela se produit et aucun membre du service informatique ici ne le peut non plus. Personne sur les forums Joomla ne peut sembler comprendre ce qui se passe.
Est-ce que quelqu'un sait s'il existe un conflit possible dans la configuration du site Joomla basé sur ce qui est décrit ci-dessus?
UPDATE: Le problème a été résolu en corrigeant la configuration de l'extension
J'ai utilisé un plugin appelé externallogin
pour permettre à mes utilisateurs de se connecter à l'aide de University CAS (Central Authentication Server). Il s'avère que ce plugin ajoute une redirection 303 à la réponse de l'en-tête HTTP à TOUTES mes pages, en raison d'une erreur de configuration.
En conséquence, aucune de mes pages n'est indexée correctement en tant que Google (a) pénalise les redirections 303 ou probablement parce que (b) la page vers laquelle la redirection 303 pointe vers ( https: //login.umd. edu / ) a un fichier robots.txt qui interdit tous les robots.
[~ # ~] corrige [~ # ~]
Pour résoudre ce problème, vous devez corriger la configuration du plug-in comme suit:
1. Dans le menu des extensions, sous "Connexion externe>", accédez à la configuration du serveur.
2. Dans l'onglet Connexions, pour "Connexion/Déconnexion automatique", choisissez "Non". L'erreur se produit si vous choisissez "Oui" à l'étape 2, car dans ce cas, l'extension ajoute automatiquement une redirection 303 à toutes les pages de votre site Web, afin de vérifier si un utilisateur a été connecté au CAS dans la session du navigateur, et si c'est le cas, il vous connecte automatiquement au site. Cette fonctionnalité causera des problèmes d’indexation des moteurs de recherche.
Remerciements
Merci à @ stephen-ostermiller ( Réponse pertinente sur Pro Webmasters ) pour m'avoir dirigé dans la bonne direction en me faisant comprendre qu'il s'agissait d'une redirection 303 ajoutée par l'extension.