En utilisant le vérificateur de liens du W3C , j'ai découvert que mon Wiki Github ne pouvait pas être exploré:
https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync-development
Statut: (N/A) Interdit par robots.txt
C'est malheureux, car j'aimerais que les gens trouvent facilement ce wiki sur les moteurs de recherche.
QUESTION: Comment puis-je rendre mon wiki Github explorable par les moteurs de recherche?
Ou est-ce que je me trompe et que le fichier robots.txt de Github est en fait correct?
Le GitHub robots.txt interdit explicitement l'analyse des pages du wiki, par exemple dans la section Googlebot:
User-agent: Googlebot
Allow: /*/*/tree/master
Allow: /*/*/blob/master
...
Disallow: /*/*/wiki/*/*
S'agissant d'un fichier de robots couvrant l'ensemble du site, il est impossible de le contourner.
C’est un choix intéressant, car GitHub décrit les wikis en tant qu’endroit pour "partager du contenu détaillé de votre projet". Étant donné que, par défaut, les wikis publics sont modifiables par tout utilisateur, il s’agit peut-être d’une protection redoutable contre les spammeurs.
Les wikis GitHub sont consultables par les moteurs qui le prennent en charge. Voir les deux premières lignes de https://github.com/robots.txt :
# If you would like to crawl GitHub contact us at [email protected].
# We also provide an extensive API: https://developer.github.com/
C'est probablement pour analyser différents formats de wiki, etc.
Par exemple, recherchez dans "protocole de courtier openrefine" sur Google et le premier résultat est une page située sur un wiki de projet Github.