Empêcher un lien sur une page d'être indexé et suivi

Question

J'ai lu le post sur l'impact de la valeur de nofollow sur les robots d'exploration/indexation. Cependant, les informations des réponses postales se terminent en 2012.

Dans mon cas, vous devez avoir une page de fichier indexée par Google. Sur cette page, cependant, il y a un lien de téléchargement (se terminant par ? Download ). Je ne sais pas si le lien était également index, mais j'aimerais vraiment savoir ceci: comment puis-je m'assurer qu'un lien sur une page n'est pas indexé et suivi?

Est-ce que j'utilise le fichier robots.txt et passe quelque chose comme ça? -

Disallow: /*?download$

Ou dois-je simplement mettre rel="nofollow" sur le lien de téléchargement?

En outre, que dois-je faire pour les liens de téléchargement potentiellement déjà indexés?

Merci!

UPDATE:

Selon la nofollow de Google documents :

En général, nous ne les suivons pas. Cela signifie que Google ne transfère pas le texte du PageRank ou du texte d'ancrage sur ces liens. L'utilisation de nofollow nous oblige essentiellement à supprimer les liens cibles de notre graphique global du Web. Toutefois, les pages cibles peuvent toujours apparaître dans notre index si d'autres sites les lient sans utiliser nofollow, ou si les URL sont envoyées à Google dans un sitemap.

Donc, je suppose que déclarer que les "pages peuvent encore figurer dans notre index" suggère que les liens utilisant nofollow ne sont généralement pas indexés - à l'exception des exceptions mentionnées dans le paragraphe docs.

Je pense que cela règle le problème, mais si quelqu'un a des informations supplémentaires à l'appui, soyez le bienvenu.

Mike · Answer

Si vous voulez vraiment empêcher un lien d'être indexé ou suivi, vous pouvez aller à l'extrême comme suit:

Si vous utilisez un langage de script côté serveur ou si vous disposez d'un accès suffisant à Apache, modifiez le code de sorte que la page à ne pas indexer soit associée à un code d'état HTTP 410, ce qui signifie que la page est définitivement perdue. Cela entraînera la suppression de la page précédente de l'index de Google.
Dans le code HTML entre <head> et </head>, ajoutez <meta name="ROBOTS" content="NOINDEX,NOFOLLOW"> pour indiquer aux robots de ne pas indexer la page.

Maintenant, en ce qui concerne les pages secrètes que vous souhaitez créer ultérieurement, je suggère de créer un formulaire mais avec la méthode POST au lieu de GET et avec le type de code suivant:

<form method="POST" action="http://example.com/path/to/secret"> <input type="submit" value="button label"> </form>

De cette façon, vous pouvez utiliser des scripts pour empêcher les utilisateurs d'accéder à cette URL secrète en les saisissant uniquement manuellement dans la barre d'adresse.

Evgeniy · Answer

Rien dans le monde ne rendra un véritable lien impossible à découvrir par Google.

Même si vous fermez votre http://example.com/page?download depuis l'exploration de robots.txt, désindexez la page de téléchargement avec noindex et balisez le lien avec nofollow - il suffit de obtenez un seul lien retour entrant vers votre http://example.com/page?download , et la page est explorée.

Thats pourquoi utiliser un meilleur bouton au lieu d'un lien

<form method="get" action="file.exe"> <button type="submit">Download</button> </form>

knif3r · Answer

Vous devez utiliser `rel =" nofollow "pour les liens externes dans votre page, par exemple les liens vers des articles sur d'autres blogs ou produits, etc.

Et utilisez Disallow dans robots.txt pour les pages internes.