web-dev-qa-db-fra.com

Existe-t-il un vérificateur d'araignées / liens pouvant démarrer en profondeur dans un site protégé par la connexion?

Nous utilisons Blackboard hébergé par le fournisseur pour nos cours de formation à distance, mais organisons des cours multimédias sur nos propres serveurs. Le serveur multimédia a été déplacé et le domaine a été modifié. Les administrateurs de bases de données Blackboard ont exécuté des requêtes pour mettre à jour les liens dans la base de données, mais nous devons nous assurer qu'ils les ont tous bien compris. Il y a des centaines de milliers de liens à vérifier.

Je dois pouvoir me connecter à l'administrateur du tableau, accéder à la section des cours et lancer une recherche pour afficher la liste des cours avant d'exécuter le vérificateur de liens sur les liens dans les résultats de la recherche.

Y a-t-il un produit ou service qui fait cela? Je n'ai jamais utilisé Selenium, mais je me demande si une solution de script pourrait être plus appropriée. Tous les conseils sont les bienvenus.

2
Brien Malone

Oui, certains robots peuvent explorer un site qui nécessite une connexion. Pour ce faire, vous devez vous connecter à votre site à l'aide de votre navigateur Web et exporter vos cookies. Ensuite, vous démarrez le robot avec les cookies que vous avez utilisés pour vous connecter et le robot explore le site en tant qu'utilisateur connecté.

Pour exporter vos cookies, utilisez Firefox avec le Export Cookies Add-on . Connectez-vous à votre site, puis exportez vos cookies en utilisant "Outils" -> "Exporter les cookies. Enregistrez le fichier sous le nom cookies.txt.

Le robot de la ligne de commande wget peut utiliser votre fichier cookies.txt pour lancer l'analyse.

wget -r --load-cookies=cookies.txt http://mysite.example.com/

wget enregistrera le site Web localement dans une structure de répertoires telle que mysite.example.com/pages/index.html Vous pourrez ensuite exécuter un vérificateur de lien sur ces fichiers enregistrés localement.

1
Stephen Ostermiller