Google explore certaines pages qui n'existent pas sur le site

Question

Google Webmaster Tools signale une erreur d'analyse.

403 Accès refusé pour un ".html" tel que vy81TYYP/lraynb-20151123-dkd04-2290.html. Il n'a jamais existé sur un site Web développé. Ce n'est pas une fois, cela se produit pour plus de 100 liens.

404 Introuvable pour les liens qui n'existent pas sur ce site. De même, 5000 liens sont affichés dans le rapport.

C'est trop complexe pour arriver là où le problème a été généré. Un des similaires question trouvé et beaucoup d'autres, mais toujours rien trouvé pour résoudre ce problème.

Existe-t-il un problème de webmaster? ou un autre? J'ai scanné le site Web wordpress à la recherche de programmes malveillants dans chaque fichier, ainsi que dans ma base de données. Je n'ai pas trouvé de solution.

Goyllo · Answer

Si une telle chose n'existe pas sur votre site Web, ne vous en inquiétez pas, il se peut que quelqu'un lise mal votre contenu ou que votre concurrent le fasse pour un référencement négatif.

Pour éviter les SEO négatifs - Découvrez qui crée un lien vers votre site , et désavouez ces backlinks.

Cela se produit également pour des raisons internes, veuillez donc consulter le plan du site de votre site Web et la structure des liens internes de votre site Web.

Andrey Shulman · Answer

Il peut y avoir plusieurs raisons à cela:

Vous aviez ce lien sur votre site Web, mais vous l'avez supprimé en même temps que la page Web.
Vous avez des backlinks pointant vers cette URL exacte. Consultez votre site Web avec MajesticSEO, OneSiteExplorer ou Ahrefs.

Comme Goyllo - désavouez ce lien. Cependant, leur désaveu ne supprime pas les pages non existantes de l'index (du moins, cela n'arrivera pas de sitôt). Pour supprimer ces pages de l'index, utilisez Supprimer les URL dans les outils pour les webmasters (Index Google -> Supprimer les URL). Là, vous pouvez supprimer des pages une à une ou supprimer tout le répertoire. Fonctionne presque instantanément. Vous pouvez toujours annuler les modifications, alors ne vous inquiétez pas si vous avez supprimé les mauvaises pages. Bonne chance!

Evgeniy · Answer

Googlebot essaie de créer de nouvelles URL à partir de n’importe quoi (id, classe, etc.) de ce qu’il peut trouver sur la page.

C'est la cause de 404: l'existence de 404 dans votre console de recherche n'est pas un problème: votre serveur réagit de manière absolument correcte - il répond avec 404 s'il reçoit un GET pour une URL non existante.

Mais dans le cas de certaines URL, votre serveur répond par 403 et essayez de les atteindre (où il devrait également répondre par 404). Vous devez ajuster votre serveur pour répondre correctement, mais dans le cas de Googlebot, vous ne pouvez pas savoir clairement à quoi ressemblent les URL qui déclenchent 403 - elles n'existent pas. Ensuite, je ferais une solution de contournement pour donner une réponse 404 même à 403 erreurs.

Faire cela:

créez votre fichier 404 personnalisé (404.php) et placez-le devant tout son code, tout comme la première ligne de cette ligne de code:
```
<?php http_response_code(404); ?> 
```

Avec cette ligne, nous voulons dans tous les cas envoyer un code de réponse 404.

Ensuite, créez dans votre htaccess deux lignes:
```
ErrorDocument 403 /error/404.php ErrorDocument 404 /error/404.php 
```
Notez que dans le cas des deux erreurs 403 et 404, nous répondons avec le même fichier d’erreur, 404.php. Habituellement, en cas d'erreur 403, cela ne servirait à rien car, quel que soit l'envoi de 404.php, le code d'état de l'en-tête resterait 403. Mais à l'étape 1, nous avons défini l'envoi du code d'état 404 avec notre code 404.php, donc 404 sera envoyé dans tous les cas.

danielwill786 · Answer

Vérifiez si ces pages sont liées à partir d'une autre page. Supprimez ces liens et marquez les erreurs comme corrigées. Assurez-vous qu'il n'y a pas de backlinks sur ces pages. Si des liens retour arrivent sur cette page, assurez-vous d’afficher 404 et de soumettre tous ces domaines à la suppression du fichier.