Je collecte un grand nombre d'URL. Je ne suis pas responsable des sites Web en question et je souhaite supprimer les paramètres de suivi n'affectant pas le contenu du site. Avec les paramètres de suivi, il est impossible d'identifier deux URL qui doivent être considérées comme égales.
Par exemple, si j'ai les liens suivants:
http://example.com/blog/post1?utm_xyz=1234
http://example.com/blog/post1?utm_xyz=5678
http://example.net/viewblog?post_id=2&utm_xyz=9999
Je souhaite convertir les URL de type canonique équivalentes:
http://example.com/blog/post1
http://example.com/blog/post1
http://example.net/viewblog?post_id=2
Les deux premiers concernent le même contenu, mais ont des paramètres de suivi différents. Le dernier exemple illustre pourquoi je ne peux pas simplement supprimer tous les paramètres de requête.
Les plus communs d'entre eux sont les utm_
, mais j'ai aussi trouvé:
pk_campaign
et pk_kwd
WT.nav
, WT.mc_id
campaign_id
wprov
hootPostID
Existe-t-il une liste connue de ces paramètres de requête que je peux supprimer en toute sécurité?
(J'utilise les URL canoniques où elles sont fournies dans les métadonnées HTML, mais je souhaite utiliser cette approche lorsqu'aucune d'elles n'est fournie.)
Je suppose que votre intention est de nettoyer les URL supprimées.
Vous pouvez vous référer à articles sur les meilleures pratiques d'utilisation de l'UTM . Les mots-clés couramment utilisés pour utm_medium
sont basés sur les conventions de dénomination utilisées dans Google Analytics, telles que: social, référence, email.
À la fin de la journée, il n’ya pas de bonne solution si vous le faites sur la base d’une liste fixe de mots-clés. Parce que les paramètres peuvent être n'importe quoi.
Vous aurez une meilleure chance d'assainir vos résultats en utilisant regex pour détecter et supprimer tous les paramètres UTM.
Pour une URL telle que https://example.com?utm_source=facebook&utm_medium=social&utm_campaign=book-launch-2014
, vous devez rechercher et remplacer les paramètres par rien :
utm_source
utm_medium
utm_campaign
utm_term
utm_content