Tout le monde a une solution éprouvée pour le problème d’indexation de contenu en double de blogger. Mes publications sont indexées avec les paramètres m = 0 et m = 1.
Ce que j'ai fait jusqu'à maintenant:
bloqué m = 0 et m = 1 sur le fichier robots.txt (ajouté: Disallow: /*/*/*.html?m=0
et Disallow: /*/*/*.html?m=1
)
Sur Google Webmaster Central> Explorer> Paramètres d'URL --- J'ai ajouté le paramètre "m" avec effet: Paginates
et Explorer (quelles URL avec ce paramètre doivent-elles être analysées par Googlebot?) Avec la valeur No URLs
.
Sur le modèle de blogueur, j'ai ajouté la méta-balise robots "nofollow" - lors de la mise en correspondance de la condition "data: blog.isMobile".
édité:
J'utilise la balise canonique: expr:href='data:blog.canonicalUrl' rel='canonical'
J'ai un domaine personnalisé pour mon blog.
J'utilise cette requête
inurl:"m=" "site:mydomain.com"
pour détecter les publications avec m = 0 et m = 1.
Il semblerait que ce que nous voyons soit simplement le résultat d’une recherche site:
. L'utilisation de l'opérateur site:
n'est pas une recherche Google "normale" et il a été démontré que les URL non canoniques (y compris redirigées ) sont renvoyées dans les SERP. Ce sont des URL qui ne sont généralement pas renvoyées dans une recherche organique "normale" (lorsqu'aucun opérateur de recherche n'est utilisé). Même les URL qui sont la source des redirections 301 ont été montrées comme étant retournées pour une recherche site:
, quand elles ne sont pas retournées normalement . Ces URL non canoniques sont toujours explorés (et traités) par Google et sont souvent reconnus lors d'une recherche site:
.
Référence:
Normalement, un rel="canonical"
(que vous avez déjà fait) suffit pour résoudre de tels conflits avec les paramètres de requête et le contenu dupliqué. Notez cependant que cela n'empêche pas nécessairement les pages non canoniques d'être indexées (que vous voyez lors d'une recherche site:
_), mais d'être retournées dans un fichier. Recherche Google "normale".
bloqué m = 0 et m = 1 sur
robots.txt
....
Vous ne voulez probablement pas empêcher l'exploration de ces URL car cela pourrait nuire à votre classement dans la recherche mobile.
En passant, qu'en est-il de Disallow: /.html, Allow: /.html$
De plus: Cela a l'air "dangereux". Google ne traite pas les directives robots.txt
par ordre décroissant. Ils sont traités par ordre de spécificité (longueur de l’URL), mais s’agissant de l’utilisation de caractères génériques , l’ordre est officiellement "non défini" (ce qui signifie également qu’il pourrait même changer). ). La directive Allow:
est également une extension du "standard" et peut ne pas être prise en charge par tous les moteurs de recherche. Il vaudrait mieux être plus explicite. par exemple. Disallow: /*?m=
. Mais, comme mentionné, vous ne devriez probablement pas bloquer ces URL dans robots.txt
de toute façon.
Voir aussi ma réponse à cette question pour plus d'informations sur robots.txt
et son traitement:
Google ne considère pas le contenu en double lorsqu'il sert différemment pour la recherche sur le bureau et la recherche mobile, par exemple m.facebook.com/some-page/ et www.facebook.com/some-page/ ne considérera pas le contenu en double, même le contenu idem sur deux URL différentes.
J'ai récemment utilisé blogger et ils utilisent example.blogspot.com?m=1 lorsque les visiteurs/googlebot proviennent d'appareils mobiles. Donc, ils vont gérer cela pour vous, et vous n'avez vraiment rien à faire. En ajoutant ce blogueur robots.txt ?m=1
, vous bloquez simplement le bot Google Mobile, ce que vous ne devriez pas, car Google indexe le le contenu mobile en premier.
Si vous avez déjà ajouté votre site Web à la console de recherche, activez l'option d'amélioration HTML et si Google affiche vous avez la même balise de titre pour deux URL différentes, cela signifie que Google considère que votre contenu est dupliqué. Sinon, laissez Google faire le travail à sa place.
Ne pas utiliser site: ou opérateur inurl pour vérifier le contenu en double, le blog officiel de Google affiche les deux URL de cette requête inurl:"m=" "site:webmasters.googleblog.com"
Donc, ne faites rien dans votre blog blogueur, supprimez ces règles robots.txt et supprimez également l'attribut nofollow.
Si les pages avec les deux m = 0 et m = 1 ou tout autre paramètre ont l'URL canonique correcte, vous ne devriez avoir aucun problème.
Si vous n'avez pas d'URL canonique définie pour vos pages, vous devriez le faire, tels que google. Quelle est l'URL réelle de la page en cours?.