Un de mes amis et moi avons un débat au cours duquel elle affirme que tous les sous-domaines seront explorés/indexés par Google, sauf indication contraire de votre part, et je dis que si une page n'est liée à aucun endroit, elle ne devrait pas ne pas être rampé.
Par exemple, supposons que je possède example.com et que je crée un nouveau sous-domaine avec un nom aléatoire étrange, tel que adayinthewoods.example.com, et jette une installation wordpress que je prévois d'utiliser à des fins de test. .
Que faudrait-il pour que Google commence à explorer et à indexer cela? Google va-t-il consulter les enregistrements Whois et constater que j'ai ajouté un sous-domaine à ma table DNS, puis commencer à l'explorer? Est-ce que le fait que j'ai installé wordpress dessus rend mon installation "moteur de recherche ping"? Comment ça marche? Comment les domaines de premier niveau sont-ils explorés s’il s’agit d’un tout nouveau domaine? Je suppose que le mécanisme est différent des sous-domaines aléatoires.
Que se passe-t-il si j'ajoute une nouvelle page dans mon dossier racine appelée "noOneWillEverSeeThis.html"? Cela pourrait-il jamais être exploré/indexé s'il n'était inclus dans aucun plan du site et n'était lié à aucun emplacement?
J'apprécierais vraiment une réponse solide de quelqu'un qui comprend ce qui se passe avec cela.
Merci beaucoup
Oui, Google peut le faire et il est préférable de supposer que tout ce qui est publiquement disponible sur Internet peut être indexé par Google. Lié à ou pas.
Bien sûr, si vous ne le liez pas, les chances qu'il soit indexé diminuent considérablement. Cependant, Google utilise une multitude d'outils pour rassembler les URL à indexer. Récemment, il y avait un article sur les liens Dropbox qui avait été partagé (devenant ainsi publiquement disponible) indexé par Google parce que des personnes avaient cliqué sur des liens dans les documents ou mis leurs URL dans le champ de recherche Google.
Peu importe comment Google trouve le lien. Le fait est que cela peut .
Donc, si vous ne voulez pas que quelque chose se termine dans Google, vous devez mettre un fichier robots.txt en place pour empêcher Google d'entrer. . Faire confiance à l'obscurité n'est pas conseillé.
Pensez à la liaison comme une réaction en chaîne. Google ne liera pas de domaine s'il n'a aucun moyen d'y accéder ou même de le trouver. Si un ami annonce votre URL sur un site de forum populaire que Google indexe toujours, il est alors possible que Google lise et éventuellement l’indexe, en pensant que le lien fait partie du site.
Est-ce que le fait que j'ai installé wordpress dessus rend mon installation "moteur de recherche ping"? Comment ça marche?
Je doute que les systèmes de gestion de contenu lancent des requêtes ping aléatoires sur les moteurs de recherche, mais vous pouvez toujours vérifier le code source et voir si un code contient des commandes permettant d'ouvrir des URL distantes. Des exemples de ce type de code dans PHP (qui est ce que wordpress utilise) pourrait inclure (sans ordre particulier):
$data=file_get_contents("http://www.searchengine.com/submittoengine/data.cgi?whatever=whatever");
$remote=fopen("http://www.remote.com/upload.cgi?website=bla.com");
Ou même des fonctions curl qui peuvent inclure:
curl_exec($webdata);
Un bon moyen de voir comment wordpress se comporte vis-à-vis du réseau consiste à créer votre propre configuration LAMP/WAMP. Cela signifie que vous devez utiliser Linux ou Windows et installer Apache, MySQL et PHP sur un ordinateur, puis vous déconnecter de votre connexion Internet actuelle et configurer Apache de sorte que vous puissiez accéder au contenu lorsque vous entrez l'une des URL suivantes:
http://127.0.0.1/
http://localhost/
Lorsque Apache est installé correctement pour la première fois, quel que soit le statut de votre connexion Internet réelle, vous devriez voir apparaître un message du type "Ça marche" ou autre chose qu'un type de message "Impossible de se connecter au serveur distant". Ensuite, installez wordpress et voyez ensuite s'il se plaint d'Internet ou d'un ping, etc. Je parie que ce ne serait pas le cas.
Tout est mieux fait par expérimentation.