Je suis un développeur Web et je souhaite créer des clones des sites que j'ai développés pour les clients, afin d'avoir une "copie originale" sur un sous-domaine de mon propre site Web, afin de pouvoir présenter mon travail à de nouveaux clients.
Quel est le meilleur moyen de ne pas pénaliser les sites Web originaux de mes clients pour leur contenu en double?
Je prévois d’avoir un fichier robots.txt qui interdit tous les robots, ainsi que d’utiliser
<link href="http://www.client-canonical-site.com/" rel="canonical" />
dans le <head>
des pages.
Est-ce suffisant? Devrais-je utiliser rel = nofollow sur tous les liens également?
Utilisez le fichier robots.txt et mettez les éléments suivants à l'intérieur:
User-agent: *
Disallow: /
C'est vraiment tout ce dont vous avez besoin. En outre, si le site Web d'un client est indexé en tant que site d'origine, les doublons ne seront pas pénalisés.
Le problème avec les robots web, c'est que vous devez supposer qu'ils suivront toutes les règles que vous avez définies.
S'ils vont suivre l'un d'entre eux, ce sera le fichier robots.txt, donc avoir juste ça devrait suffira. Cependant, le reste ne fera pas mal.
La meilleure solution est rel = "canonique". Certains robots sont de mauvais robots et vont explorer votre page, puis ils vont placer des liens sur leurs SERP et ensuite, Google les saura. Je l'ai testé avec l'un de mes sites Web, et certains liens ont été indexés, même s'il existe une règle - User-agent: * Disallow: /
Bonne chance
robots.txt n'empêchera pas Google ni les autres d'indexer les pages bloquées. Il leur demande simplement de ne pas explorer ces dossiers.
Si toutefois votre domaine principal, ou un client, relie directement aux pages bloquées, Google indexera la page.
Assurez-vous d’ajouter noindex
et nofollow
à ces balises méta, mais pour plus de sécurité, vous devez protéger le dossier dans lequel elles se trouvent.