J'ai un site assez volumineux avec des milliers de fichiers PDF qui sont parfois comptabilisés dans une base de données, mais ne sont souvent que des liens sur la page et sont stockés dans la plupart des répertoires du site.
J'ai écrit un robot php pour suivre tous les liens sur mon site, et ensuite je le compare à un dump de la structure de répertoires, mais y a-t-il quelque chose de plus facile?
J'ai utilisé Link Sleuth de Xen . Cela fonctionne plutôt bien, mais assurez-vous de ne pas vous mettre à l’essai!
Si vous utilisez Windows 7, le meilleur outil est le SEO Toolkit 1.0 d'IIS7. C'est gratuit et vous pouvez le télécharger gratuitement.
L'outil analysera tous les sites et vous indiquera où se trouvent tous les liens morts, les pages à charger, les titres qui manquent, les titres en double, les mêmes pour les mots-clés et les descriptions, et les pages contenant du HTML cassé.
Essayez l'outil open source du W3C, Link Checker . Vous pouvez l'utiliser en ligne ou l'installer localement
Il existe plusieurs produits de Microsys , en particulier leur Générateur de sitemap A1 et Analyseur de site Web A1 , qui analysera votre site Web et rapportera tout ce que vous pouvez imaginer. il.
Cela inclut des liens brisés, mais également un tableau de toutes vos pages pour vous permettre de comparer des balises identiques, telles que <title> et méta-description, des liens nofollow, des méta-index sur les pages Web, ainsi que de nombreuses maladies nécessitant un regard attentif. une main rapide à réparer.
Link Examiner est un très bon logiciel gratuit qui répond à vos besoins.
Je suis un grand fan de linklint pour la vérification de liens sur de gros sites statiques, si vous avez une ligne de commande unix autour de (I ' utilisé sur Linux, MacOS et FreeBSD). Voir leur site pour les instructions d'installation. Une fois installé, je crée un fichier nommé check.ll
et je fais:
linklint @check.ll
Voici à quoi ressemble mon fichier check.ll
# linklint
-doc .
-delay 0
-http
-htmlonly
-limit 4000
-net
-Host www.example.com
-timeout 10
Cela effectue une analyse de www.example.com
et génère des fichiers HTML avec des rapports de références croisées pour ce qui est cassé, manquant, etc.