web-dev-qa-db-fra.com

Crawler recherchant des URL avec les identifiants et catid

Tout en essayant de générer un sitemap avec un robot, il trouve des URL vraiment bizarres qui ne donnent pas un 404 et affichent un contenu incorrect sur la mauvaise section.

Ainsi, par exemple, j'ai un menu appelé fiction avec sous-élément used-fiction/offers. La section fiction a son propre modèle, ce qui lui donne un aspect différent de la section autobiographie, mais le robot recherche l'URL ci-dessous et le contenu de chargement du id = 124 dans le modèle de fiction, ce qui est complètement faux. Il n'y a aucun élément de menu pointant vers cet article qui se trouve dans le menu Fiction. Cet ID d'article a un élément de menu dans le menu 'Autobiographie' qui fonctionne bien.

/fiction/used-fiction/offers?id=124:a-long-walk-to-freedom&catid=2

Je me demande s'il est possible d'identifier où se trouvent ces liens dans la table de contenu, mais en enregistrant la base de données, je ne trouve rien de ce genre qui se trouve à distance. Toute suggestion sera appréciée!

1
sifu

Je prendrais un cliché de la base de données, puis j'utilisais notepad ++ ou similaire pour rechercher dans le fichier SQL "id = 124: a-long-walk-to-freedom". Si quelque chose était trouvé, il devrait être relativement facile à réparer.

Cela suppose que, lors de votre précédente tentative de recherche, vous avez oublié de compenser la réécriture par SEF de certaines parties du lien ou que vous avez oublié de rechercher le contenu du module. Rechercher dans la base de données entière avec un éditeur de texte pour une partie plus courte de la chaîne devrait la couvrir.

Si même cela échoue, le lien pourrait également provenir des fichiers de langue.

Si vous disposez d'un journal d'accès au serveur, vous pouvez simplement effectuer une recherche pour voir où le robot d'exploration suit le lien.

2
Ville Niemi