web-dev-qa-db-fra.com

Que pouvez-vous pas trouver sur Google?

Google prétend être juste et il est dans l'intérêt de la société (la plupart du temps) de parcourir Internet à la recherche de tout ce à quoi ses spiders peuvent accéder. Je veux savoir:

  • Quel type de contenu (accessible au public) Google ne parvient-il pas à diffuser?
  • Existe-t-il un type de contenu spécifique que Google ne peut pas récupérer?

Des références, en particulier à la propre documentation de Google, seraient particulièrement impressionnantes.

18
samthebrand

Quelques idées sur le type de choses:

  1. Le contenu explicitement interdit par le fichier robots.txt d'un domaine est exclu de l'index Google.
  2. Sites Web non liés à d'autres sites déjà connus de Google. Autrement dit, il y a probablement beaucoup de sites Web qui ne sont pas liés à partir de pages visibles. Ils ne seront jamais trouvés par l'araignée Google, à moins qu'ils ne soient soumis manuellement à Google via le Outils pour les webmasters .
  3. Sites Web situés derrière des formulaires Web que vous devez remplir.
  4. Images de recensement. Le contenu étant des images souvent indexées manuellement, elles sont généralement trouvées sur des sites payants tels que ancestry.com.

En savoir plus sur le Deep Web

21
amh

Mis à part Twitter, Google n'indexe pas très bien Tumblr . Les articles de blog sur Tumblr sont plus faciles à trouver en utilisant la recherche sur Tumblr. De plus, tout ce qui se trouve sur Google Sites n'est pas (ou est à peine) indexé. Si vous démarrez un site Google, procurez-vous votre propre domaine.

Les petits blogs qui ne sont pas mis à jour régulièrement sont souvent vidés des résultats de recherche. Plus tout ce qu'ils pensent est un splog .

6
David

Eh bien, la plupart du contenu Twitter n’est pas indexé par Google, même s’il est public. Auparavant, il était disponible pour Google, mais ce n’est plus le cas depuis l’expiration de leur contrat.

Source .

5
Alex

Cela dépend dans quel pays vous êtes. Dans Allemagne , il ne montre pas des milliers de sites que le gouvernement pense ne pas être bons pour vous, et la liste s'allonge chaque année par milliers.

Google est le moteur de la censure sur Internet. Si vous voulez un Internet gratuit, utilisez des entreprises non perverses, telles que DuckDuckGo ou autres.

4
Hellagot

Vous ne pouvez pas recherchez un mot clé avec des caractères spéciaux dans Google Search :

En règle générale, la ponctuation est ignorée, y compris @ # $% ^ & * () = + []\et d'autres caractères spéciaux.

Ceci est particulièrement gênant lorsque Google utilise du code.

4
Franck Dernoncourt

Google supprime les résultats de recherche considérés comme portant atteinte aux droits de propriété intellectuelle à la suite de la suppression de DMCA et de demandes similaires. Voir Formulaire de demande de suppression des résultats de recherche de Google (il peut contenir une URL supplémentaire, btw).

3
einpoklum

Les sites avec tellement de contenu que Google n'a tout simplement pas eu le temps (ni l'envie) de tout indexer.

Les sites qui ne disposent pas d'une carte de site explorable et qui nécessitent que Google fournisse des termes de recherche pour accéder aux résultats disponibles sur le site peuvent ne pas être entièrement indexés.

1