web-dev-qa-db-fra.com

Devrais-je utiliser 'robots.txt' ou 'sitemap.xml' pour obtenir des fichiers créés dynamiquement indexés dans les moteurs de recherche?

J'ai structuré mon site vidéo comme ceci:

/ (root)
 index.html
-/videos
   -/video-id1  (dynamically generated subdirectory when user uploads a video)
        /index.html  (dynamically generated file when user uploads a video)

Les sous-répertoires et les fichiers qu'ils contiennent sont créés dynamiquement chaque fois qu'un utilisateur télécharge une vidéo. Je pensais qu'utiliser un sitemap.xml serait un bon choix pour indexer ces fichiers dans les moteurs de recherche, car PHP je peux éditer le plan Sitemap dynamiquement après la création de chaque page. Mais c'est assez difficile à faire (puisqu'il s'agit d'un document XML).

J'ai donc pensé à utiliser un robots.txt au lieu d'un sitemap pour les indexer, mais est-ce que cela serait utile pour cela?

En d'autres termes, j'essaie de comprendre comment je peux soumettre des sous-répertoires et des fichiers créés dynamiquement aux moteurs de recherche? En utilisant Stack Exchange comme autre exemple, comment des questions comme celle-ci sont-elles répertoriées dans les moteurs de recherche chaque fois qu'un utilisateur pose une question?

Je pense qu'ils utilisent sitemap.xml pour chaque question, comme on peut le voir ici .

3
Vedant Terkar

vous devriez utiliser les deux:

  • encouragement à explorer en utilisant un sitemap.xml - Un moteur de recherche sitemap.xml bien structuré can araignées pour trouver votre contenu rapidement et directement. Et un sitemap.xml vous donne la possibilité de définir ce que vous voulez explorer, la fréquence à laquelle vous considérez que l'exploration est utile et vous pouvez même placer un focus sur le contenu que vous trouvez important - la balise indique aux crawlers ce que vous considérez le plus important. Google accepte les sitempas suivant XML-Sitemap-Protokol 0.9, qui est expliqué en détail à l'adresse www.sitemaps.org
  • exploration du découragement à l'aide d'un fichier robots.txt ​​ - En fournissant un fichier robots.txt, vous pouvez essayer de le dire une araignée quels répertoires et fichiers vous ne voulez pas avoir explorés. Cela peut sembler un peu étrange, mais il peut être judicieux d'essayer d'exclure des pages telles que "s'inscrire" ou "s'abonner à un bulletin d'information". Voici quelques informations supplémentaires sur l'exclusion des répertoires et des fichiers sur tools.seobook.com/robots-txt/

Les deux techniques can aident car elles peuvent être respecté par les moteurs de recherche - mais ils ne doivent pas nécessairement suivre les instructions énumérées dans les fichiers sitemap.xml et robots.txt .. Alors, ne vous fiez pas à l'une ou à l'autre - mais utilisez les deux.

Un ajout: je recommanderais également de générer le fichier sitemap.xml en utilisant php chaque fois qu'un nouveau fichier est téléchargé - ou chaque fois que vous le déclenchez. Cela vous donne a) un contrôle à 100% de ce qui est répertorié, dans quel ordre et quelles balises sont utilisées, et b) je considère un fichier statique supérieur à celui que le robot d'exploration doit se rendre à chaque visite.

PS: de toute façon, vous voudrez probablement utiliser un fichier robots.txt - même si vous ne voulez pas exclure rien de l'exploration - car cela peut être très utile dans de nombreuses situations différentes…

7
tillinberlin

Je pensais qu'utiliser un sitemap.xml serait un bon choix pour indexer ces fichiers dans les moteurs de recherche, car en utilisant PHP, je peux éditer le sitemap de manière dynamique après la création de chaque page. Mais c'est assez difficile à faire (puisqu'il s'agit d'un document XML).

Ce n'est pas aussi difficile que vous le pensez. À l'aide de PHP, vous pouvez créer le code XML de manière dynamique, puis le générer avec l'en-tête suivant:

header("Content-type: text/xml");

sélectionnez vos pages dynamiques dans votre base de données, créez une structure XML et exportez-les avec l’en-tête ci-dessus. Ensuite, fournissez à Google Webmasters un lien vers votre script PHP.

Pas besoin d'éditer des fichiers XML avec PHP.

1
Wexford

Un fichier de robots indique aux moteurs de recherche et aux autres où aller et surtout ce qu’il faut éviter. Les sitemaps indiquent aux moteurs de recherche la structure de votre site et la difficulté de trouver des pages et des chemins d'accès. Dans votre cas, il semble que vous deviez créer un plan du site.

1
Rob

Si vous pensez que la création d'un sitemap XML est trop compliquée, vous pouvez également créer un sitemap dans un fichier texte. Ce format n’offre pas toutes les fonctionnalités supplémentaires, mais il suffit si vous souhaitez uniquement répertorier toutes les URL à indexer.

Voir http://www.sitemaps.org/protocol.html#otherformats

UTF-8. Une URL absolue par ligne. Rien d'autre.

Donc, cela pourrait ressembler à:

http://example.com/
http://example.com/videos
http://example.com/videos/video-id1
http://example.com/videos/video-id2
http://example.com/videos/video-id3
1
unor