web-dev-qa-db-fra.com

Comment empêcher un concurrent de cloner mon site Web

Je gère un site Web qui fournit des métadonnées provenant de l'électronique spécialisée (données comme le poids, les dimensions, les applications, la tension, etc.). Il compare également les produits en utilisant toutes ces données afin que l'utilisateur puisse voir les différences entre deux produits.

J'ai beaucoup de travail pour rechercher ces données et les placer dans une base de données structurée pour mon site Web.

Un concurrent a créé un "robot à chenilles" qui analyse automatiquement mon site Web, saisit toutes les données structurées et les reproduit sur son propre site Web. Il lit le code HTML, analyse les tableaux, obtient les valeurs, il obtient même les "descriptions d'info-bulles" que j'ai écrites pour chaque propriété, et avec toutes ces données, il alimente sa propre base de données afin qu'il puisse afficher les données comme il le souhaite.

Je place un nouveau produit sur mon site Web, et le produit est sur le site Web des concurrents quelques heures plus tard. Ce n'est pas une "simple copie HTML". Il analyse toutes les données et les enregistre de manière structurée. Il télécharge même toutes les images du produit et les héberge sur son propre serveur. C'est un robot à chenilles assez avancé.

Je veux un moyen d'empêcher mon concurrent de faire ça.

J'avais l'intention de bloquer tout son pays sur mon WebServer, mais je suppose que cela ne l'arrêtera pas très longtemps. Il trouvera probablement un moyen de contourner cela (je le ferais).

De plus, je ne peux pas simplement "encoder l'image" mes données parce que c'est très hostile au référencement. Et j'ai besoin de Google pour me trouver.

Que suggérez-vous?

4
Daniel Ribeiro

En règle générale, tout ce qui est visible au public peut être exploré par des robots sophistiqués. Les emplacements peuvent être truqués, les adresses IP peuvent être masquées, les solutions captcha peuvent être achetées.

Votre meilleur recours dans ce cas peut être par voie légale. Commencez par envoi d'une demande de retrait DMCA à Google pour que son site soit retiré de la recherche Google, ce qui devrait le ralentir. Si le concurrent se trouve dans une juridiction que vous pouvez toucher légalement, vous pouvez également envisager de parler avec un avocat de la création d'un piège du droit d'auteur fictif .

Ce fil similaire contient des conseils pour savoir si un concurrent vole votre contenu et se classe au-dessus de vous dans la recherche Google, ce qui pourrait être utile:

n autre site Web est en miroir et se classe au-dessus de mon site dans les résultats de recherche

Je ne suis pas avocat et ce n'est pas un conseil juridique.

2

Des connards comme celui-ci sont entrés en ligne presque au moment où Internet est né. Quelques options dignes de réflexion:

  1. Vous pouvez écrire du code en CGI/Perl, ou PHP qui appelle vos données (et pages) "à la volée". Placer les données dans des fichiers produits ou des bases de données, plutôt qu'en HTML standard, peut empêcher leur bot de pouvoir voler les données. Certes, un membre du personnel pourrait venir sur votre site et obtenir les données, mais ce ne sera pas aussi attrayant qu'un programme de bot qui vole les données. les pages sont produites à ce moment, donc il n'y a pas de pages "statiques" à voler. Pas parfait, mais ça a du potentiel.
  2. Vous pouvez utiliser .htaccess pour essayer: Blocage des navigateurs hors ligne et BadBots , ou Refuser les visiteurs par adresse IP . Cela pourrait les retenir un petit moment.
  3. Vous pouvez protéger les droits d'auteur de votre site Web. Vous devez comprendre que les spécifications (dimension, poids, taille, etc.) du produit ne peuvent pas être protégées par des droits d'auteur. Toute personne présentant le produit sur son site est autorisée à utiliser ces informations. Cependant, vous avez indiqué que vous créez des "info-bulles" et que ces descriptions sont également récoltées par le bot. C'est quelque chose que vous pouvez citer comme violation du droit d'auteur. Regardez-y. ( Remarque: les règles de copyright varient selon les pays. )
2
elbrant

Techniquement, vous ne pouvez pas empêcher cette action.

Cependant, vous pouvez faire des choses pour "désamorcer" les pages en double ou de mauvaise qualité qui peuvent nuire à votre classement.

  • Vous pouvez mettre un lien canonique à l'intérieur de votre balise body et à l'intérieur de la section du contenu principal.
  • Vous pouvez mettre un lien de marque dans votre contenu principal afin que le contenu cloné ait un lien vers votre propre site Web.
1
Shayan Davoodi