Je suis développeur et responsable de la gestion des webmasters et des problèmes associés (y compris la correction des erreurs d'analyse) pour des dizaines (voire des centaines?) De sites actifs. Dans le cadre de mes fonctions, je crée un rapport de chaque divergence, y compris toutes les pages générant un 404 et toutes les pages qui renvoient à ces pages.
Actuellement, dans Webmaster Tools, je peux télécharger un fichier csv de toutes les pages avec une réponse 404, mais je dois ensuite cliquer manuellement sur chacun de ces liens et copier le champ "lié de" à coller dans ma feuille de calcul. . Ceci est extrêmement fastidieux et semble inutile; Je m'attendrais à pouvoir télécharger toutes ces données à la fois. En fin de compte, je cherche le résultat final d’un fichier csv qui contient toutes les URL d’un 404, mais qui contient également toutes les URL associées à chacun d’eux.
Est-ce que je néglige cette fonctionnalité quelque part ou quelqu'un a-t-il une bonne solution?
Edit 1 (2/11/2013):
Exemple de la sortie csv maintenant:
URL,Response Code,News Error,Detected,Category
http://www.abcdef.com/123.php,404,,11/12/13,Not found
http://www.abcdef.com/456.php,404,,11/12/13,Not found
Ce qui est excellent, mais disons que 123.php a 5 pages qui pointent vers elle. Maintenant, je dois dupliquer cette ligne 4 fois de plus dans ma feuille de calcul, puis aller dans Webmasters, obtenir toutes les URL contenant ce lien vers la page et ajouter ces données à ma feuille de calcul.
La sortie que je préférerais:
URL,Response Code,Linked From,News Error,Detected,Category
http://www.abcdef.com/123.php,404,http://www.ghijkl.com/naughtypage1.php,,11/12/13,Not found
http://www.abcdef.com/123.php,404,http://www.ghijkl.com/naughtypage2.php,,11/12/13,Not found
http://www.abcdef.com/123.php,404,http://www.ghijkl.com/naughtypage3.php,,11/12/13,Not found
http://www.abcdef.com/456.php,404,http://www.ghijkl.com/naughtypage1.php,,11/12/13,Not found
http://www.abcdef.com/456.php,404,http://www.ghijkl.com/naughtypage2.php,,11/12/13,Not found
http://www.abcdef.com/456.php,404,http://www.ghijkl.com/naughtypage3.php,,11/12/13,Not found
Notez l'ajout (hypothétique) d'une colonne "Lié à partir de", ainsi que le fait qu'il n'y a plus que 2 URL uniques maintenant (comme auparavant) mais que toutes les pages "Lié à" sont affichées dans un seul rapport.
Edit 2 (12/02/2013):
Pour clarifier, ma question concerne moins la détection et la correction des 404, mais davantage la génération d'un rapport sur les erreurs répertoriées par Google. Souvent, ces erreurs ne sont même plus valables, mais j'ai toujours besoin d'une documentation pour montrer que Google a détecté un problème et que ce problème est maintenant résolu. La plupart des URL "liées à" que je trouve sont en réalité des ressources obsolètes et mises en cache. Par exemple, je vois fréquemment que l'URL liée à partir de est le sitemap, qui est en fait un ancien sitemap mis en cache par Google et qui pointe vers une ancienne page. Ni le plan du site ni l'ancienne page n'existent, mais ils apparaissent toujours dans mes rapports d'erreur d'analyse car il s'agit de ressources mises en cache.
J'utilise un autre outil appelé Screaming Frog. C'est une sorte de couteau suisse - http://www.screamingfrog.co.uk/seo-spider/
De la manière dont vous décrivez vos tâches, vous auriez besoin de la version commerciale car la version gratuite est limitée. Une des principales caractéristiques est l'exploration de votre site et fournit une liste d'URL par code de réponse, qu'il s'agisse d'un 404 ou d'un autre. Vous pouvez également voir les liens de référencement et exporter les données. Certaines options vous permettent d'utiliser ou d'ignorer le fichier robots.txt de votre site. Les données peuvent également être exportées.
Et si vous utilisez la suggestion de Stephen concernant la lecture du fichier journal, vous pouvez consulter Splunk.com. Il vous permet de plonger profondément dans les journaux et de créer des rapports.
Au lieu de vous fier aux outils du webmaster, vous pouvez obtenir votre propre liste d'erreurs 404 à partir des fichiers journaux de vos serveurs.
Je trouve que les erreurs 404 les plus importantes sont celles que les utilisateurs rencontrent en cliquant sur un lien. Ces erreurs sont généralement associées à un référent. Je génère des rapports d'erreurs séparés avec les référents et sans. Les deux rapports sont triés par nombre d'occurrences dans le fichier journal. L'ensemble du processus peut être automatisé facilement avec un peu de script Shell.
Votre question semble un peu vague et difficile à comprendre en quoi consiste exactement le problème. Si ma réponse est incorrecte, il serait peut-être judicieux de modifier votre question pour la rendre plus directe et plus simple de ce que vous ne pouvez pas faire et ce que vous voulez qu'elle fasse. .
Téléchargement de 404 à partir de Google Webmaster Tools
Vous pouvez télécharger toutes les URL à l'aide des outils pour les webmasters de Google, comme vous le savez. Vous ne le savez peut-être pas, mais vous n'avez pas besoin de cocher de case ni d'afficher 500 lignes pour pouvoir télécharger le lot au format CSV. . Les fichiers CSV sont essentiellement des fichiers de texte brut avec des colonnes et des lignes sans aucune fantaisie - vous vous attendez donc à ce qu'ils ne contiennent pas de liens hypertexte basés sur href et ne contiennent que du texte. Normalement, vous pouvez créer ces liens en saisissant l'entrée puis en appuyant sur entrée, puis en cliquant dessus, ce qui peut être décourageant si vous avez des milliers de personnes à faire.
Maintenant, vous avez également omis de mentionner le programme que vous utilisez en tant que méthode varie d’un tableur à l’autre, mais je vais utiliser Excel, car c’est la méthode la plus couramment utilisée. Si vous utilisez autre chose, utilisez Google, mais vous savez moins où. commencer.
Dans Excel et d'autres tableurs, vous pouvez créer des macros qui font pratiquement tout ce que vous voulez, même dans les limites de leur codage. Dans Excel, vous pouvez facilement convertir tous les liens de texte en liens cliquables en exécutant une macro.
Recherche de la section Macro dans Excel 201
Trouver la section Macro ou au moins n'importe quoi dans Excel 2010 est ennuyant, mais vous pouvez le trouver dans ...
Onglet Affichage> Macros (extrême droite)
Faire votre propre macro
Vous voulez créer votre propre macro pour convertir les liens de texte en hyperliens, assurez-vous donc que la feuille de calcul est chargée et que toutes les entrées que vous souhaitez créer sont bien remplies.
Cliquez sur le bouton Macros et cliquez sur les macros de vue.
Tapez un nom de macro tel que "Créer des hyperliens" et cliquez sur le bouton de création.
Une fois que vous êtes dans Macro Maker, mettez en surbrillance tout et appuyez sur la touche Suppr (en supposant que vous n'avez pas vos propres macros déjà faites)
Puis recopiez ce code en:
Sub HyperAdd()
'
' Google Webmaster Tools CSV Hyperlink Maker
'
For Each xCell In Selection
ActiveSheet.Hyperlinks.Add Anchor:=xCell, Address:=xCell.Formula
Next xCell
'
'
End Sub
Recherchez ensuite la minuscule icône de lecture VERTE sur la même page, en supposant que vous la trouviez et que tous les liens de texte soient mis en surbrillance, ce qui en fera des hyperliens cliquables.
La macro sera sauvegardée dans la feuille de calcul pour une utilisation ultérieure.