web-dev-qa-db-fra.com

Blackhat - Copier le contenu d'un concurrent avant qu'il ne soit indexé

Le titre résume assez bien la question. Je suis dans un créneau très compétitif.

Bien que mon site soit relativement puissant, mon contenu n'est pas toujours indexé immédiatement.

J'ai récemment eu un cas où un concurrent a copié mon contenu - a posté le duplicata exact, mais il a été classé pour le poste malgré le fait que je l'écrive.

QUESTION:

  1. Si le contenu est pas encore indexé par Google est-il gratuit pour quiconque de le copier et de le copier sur son site? , dans le espère-t-on que la copie volée sera indexée avant la copie originale? Est-ce que cela arrive souvent comme une technique de chapeau noir?
  2. Je me rends compte que vous pouvez utiliser l'extraction comme google dans la console de recherche, puis soumettre à l'index, mon contenu est indexé instantanément lorsque je le fais - MAIS je n'aime pas toujours le faire, préférant google pour découvrir le contenu de façon naturelle. Ai-je tort de vouloir rechercher le contenu naturel et dois-je simplement soumettre chaque publication manuellement à l'index?

Toutes les réponses/suggestions sont les bienvenues.

6
Timothy Coetzee

Je suis sûr que c'est un problème courant dans des environnements concurrentiels, et encore plus lorsque le contenu est un sujet de niche.

Q: Si le contenu n'est pas encore indexé par Google, est-il gratuit pour quiconque de le récupérer et de le copier sur son site?, Dans l'espoir que la copie volée sera indexé avant la copie originale? Est-ce que cela arrive souvent comme une technique de chapeau noir?

R: Il existe de nombreux facteurs inconnus pour déterminer quand et comment Googlebot effectue son exploration. Par exemple, Google analysera d'abord https, avant http . En tant que propriétaire du contenu, vous possédez l'unique droit de distribution et à ce titre, si vous avez une réclamation pour atteinte aux droits d'auteur, vous pourrez peut-être engager une action en justice, en fonction de votre localisation.

Vous pouvez contacter directement le webmaster et demander que le contenu soit supprimé, bien que cela puisse ne pas toujours être fructueux. Alternativement, vous pouvez envisager quelque chose comme Qui héberge ceci pour identifier qui est l'hôte et le contacter directement. Plus souvent, l'hébergeur agira de manière plus pertinente et pourrait même mettre le site Web complètement hors ligne afin de lui permettre de supprimer le contenu dupliqué.

Une autre option consisterait à emprunter la voie de plainte Google DMCA . Tiré directement de google.com:

Cette page vous aidera à vous rendre au bon endroit pour signaler le contenu que vous souhaitez supprimer des services de Google dans le cadre des lois applicables.

Mais finalement, oui, cela se produit dans la nature , vous n'êtes certainement pas la seule personne à en faire l'expérience.

La bonne nouvelle est que vous disposez d'un large éventail d'outils pour vous aider à dissuader ce type de comportement à l'avenir:

  • Alertes Google : Vous pouvez par exemple insérer une partie de votre article, choisir les types de sites Web à rechercher, puis fournissez votre adresse e-mail pour que Google puisse vous contacter avec les résultats. (Vous pouvez configurer autant d'alertes que vous le souhaitez et ajuster les paramètres pour être notifié quotidiennement, hebdomadairement ou "au fur et à mesure").

  • Copyscape: Il s’agit d’une option payante, mais ce site effectue une recherche sur le Web et vous indique les sites qui republient votre contenu.

Q: Je me rends compte que vous pouvez utiliser l'extraction comme google dans la console de recherche, puis l'envoyer à l'index, mon contenu est généralement indexé instantanément lorsque vous le faites - MAIS Je n'aime pas toujours faire cela, préférant google pour découvrir le contenu naturellement. Ai-je tort de vouloir rechercher le contenu naturel et dois-je simplement soumettre chaque publication manuellement à l'index?

C'est davantage une question subjective, car il n'y a vraiment pas de "faux" ou de "bon" dans ce cas. En fin de compte, le fait de soumettre le contenu directement à Google vous permettra de l'indexer plus rapidement et, par conséquent, de réduire les risques de vous retrouver dans cette situation.

Une autre bonne option à considérer est la publication via Google +, qui est virtuellement indexée instantanément.

En fin de compte, le référencement n’est pas une destination, mais une tâche de toute une vie qui nécessite un suivi constant et une attention continue. C'est tout simplement l'un des obstacles que vous rencontrerez en cours de route. Le fait que vous ayez remarqué ce comportement vous place déjà en avance sur une majorité de vos concurrents, alors bravo!

2
Moose

Rendez votre site plus difficile à gratter

La plupart des scrapeurs téléchargent votre flux RSS pour voir votre nouveau contenu. Si vous mettez le contenu complet de vos articles dans votre flux RSS, il est très facile pour les scrapeurs de récupérer votre contenu complet et de le republier. Pour lutter contre cela, vous devez mettre uniquement un résumé d'article dans les flux RSS, ou bien désactiver le RSS.

Les sitemaps XML sont un autre mécanisme que les scrapers peuvent utiliser. Vous pouvez donner à Google l’accès à votre sitemap XML sans l’afficher aux racleurs potentiels. Pour ce faire, attribuez un nom personnalisé au plan Sitemap et envoyez-le à Google via la console de recherche. Ne liez pas ou ne le mettez pas dans votre fichier robots.txt.

Les racleurs font appel à des robots pour récupérer votre contenu. Ils viennent voir votre site avec ce bot fréquemment. Consultez les journaux de votre serveur pour voir si vous pouvez identifier ce comportement et bloquer les adresses IP pouvant appartenir à des scrapers de contenu.

Publier votre contenu sur une URL non liée jusqu'à ce que Google l'indexe est une autre stratégie que j'ai déjà employée. Par exemple, dans WordPress, vous pouvez utiliser la fonctionnalité "brouillon" qui maintient l'article en dehors de la page d'accueil. En attendant, parlez de la page à Google et laissez-la l'explorer.

Obtenez Google pour indexer votre contenu plus rapidement

Nous avons une question à ce sujet avec de bonnes réponses .

La soumission manuelle de pages à Google Search Console est un moyen d’indexer rapidement votre contenu, mais comme vous le dites, c’est pénible. Il existe d'autres méthodes pour informer Google de votre contenu:

  • Sitemap XML files
  • Services de ping tels que https://pingomatic.com/ . Ils informent Google du nouveau contenu et si votre site a suffisamment de réputation, Google l'explorera rapidement.
  • Poster un lien vers votre article sur Twitter. Google a accès à leur "firehose" et analyse généralement les éléments liés à Twitter en quelques minutes.

De nombreux systèmes de gestion de contenu ont des fonctionnalités intégrées ou ont des plugins pour les faire automatiquement pour vous.

Réagir aux sites de raclage

Si vous trouvez des sites de récupération avec votre contenu, vous pouvez parfois les obtenir avec des requêtes DMCA.

Dans le passé, Google a demandé pour les rapports de sites de scraper supérieurs à l'original. Leur processus de soumission est maintenant fermé, cependant. Je ne connais aucun endroit où soumettre ce contenu à Google pour le moment.

0