Google Analytics : bloquer 4webmasters .org et tous les bots / sites référents
rédigé par Lisa, le mai 20, 2015
Les sites référents considérés comme spams sont de plus en plus nombreux ces dernières années voire derniers mois. Vous avez déjà dû apercevoir des sites comme semalt.com, buttons-for-website.com, event-tracking ou encore 4webmasters.org sur Google Analytics.
Gros problème avec ces sites : le taux de rebond est à 100 % et la durée moyenne des sessions est de 0 minute ! Normal, il s’agit de bots (robots) qui visitent votre site… Souvent venus de Chine ou de Russie. Nous allons voir ensemble les différentes techniques que vous pouvez utiliser pour les bloquer.
Au sommaire :
- Liste non-exhaustive de referring bots
- Comment interdire aux bots d’accéder à votre site ?
- Pourquoi ce code ne bloque pas 4webmasters.org dans analytics ?
- Pourquoi des bots viennent sur mon site ?
- Comment bloquer les Ghost referrers dans Analytics ?
- Bloquer le maximum de bots dans Analytics
Liste non-exhaustive de referring bots
Mise à jour du 31 mai 2015 (par Jean-Baptiste)
Voici une liste de bots indésirables que certains d’entre vous nous ont remonté dans les commentaires ou que j’ai découvert dans mon trafic entrant Google Analytics. Je vous invite à les filtrer selon la méthode explicitée par Lisa dans ce tuto :
- sitevaluation.org
- best-seo-offer.com
- buttons-for-your-website.com
- sanjosestartups.com
- www.event-tracking.com
- free-social-buttons.com
- semalt.com
- 4webmasters.org
- darodar.com
Si vous avez d’autres bots à ajouter à cette liste, faites nous signe dans les commentaires.
Comment interdire aux bots d’accéder à votre site ?
Il existe logiquement un petit « hack » qui permet de les bloquer avant même qu’ils n’entrent sur votre site. Il s’agit de modifier votre .htaccess en ajoutant par exemple :
SetEnvIfNoCase Referer semalt.com spambot=yes
Order allow,deny
Allow from all
Deny from env=spambot
Problème, si ce petit code marche bien pour certains sites (semalt.com, best-seo et buttons-for-website par exemple), il ne marche absolument pas pour 4webmasters.org !
Pourquoi ce code ne bloque pas 4webmasters.org dans analytics ?
La raison est simple, 4webmasters.org utilise en fait une vulnérabilité contenue dans Google Analytics qui lui permet de faire croire au logiciel qu’il a visité votre site… C’est ce qu’on appelle du Ghost Referrer Spam. Cette visite n’a en réalité jamais eu lieu ! Ce fantôme n’a jamais visité votre site et apparait juste sous Google Analytics…
Un moyen simple de le vérifier est de contrôler les logs de votre hébergeur. Vous verrez alors que les sites semalt.com et autres sont effectivement bien indiqués dans vos logs. C’est ce qu’on appelle des Crawler Referrer Spam.
A l’inverse, 4webmasters.org, notre spam fantôme ne va pas apparaître puisqu’il n’a visité aucune page et n’existe pas ! Si vous souhaitez en apprendre plus sur la technique qu’ils utilisent pour arriver à leur fin, je vous conseille ce blog.
Il faut donc bien faire la différence entre les deux. Le crawler referrer spam peut être bloqué en utilisant la technique indiquée plus haut dans le .htaccess mais les Ghost Referrer nécessitent une manip sous Google Analytics que je vais vous dévoiler.
Pourquoi des bots viennent sur mon site ?
Vous vous posez sûrement la question suivante : pourquoi donc un faux site viendrait visiter mon blog ? La raison est simple, le webmaster va se demander ce qu’est ce site et va aller le visiter. Et paf ! Le spammeur reçoit un nouveau visiteur, peut essayer de lui vendre une offre ou pire faire du cooking stuffing comme le forum Darodar (principe : il insère un cookie d’affiliation Amazon à votre insu, et quand vous achetez sur Amazon, il récupère les 5 % de commission).
Comment bloquer les Ghost referrers dans Analytics ?
Voici la manip à faire sous Google Analytics. Connectez vous à votre compte et cliquez sous « Admin » en haut et au milieu de votre écran.
Puis cliquez sur Filtres, sous la 3ème colonne « vue »
Cliquez sur « + Nouveau Filtre »
- Indiquez le nom de votre filtre
- Cliquez sur personnalisé
- Cliquez sur exclure, puis sur Source de la campagne dans champ de filtrage
- Dans règles de filtrage, indiquez 4webmasters.org
Puis cliquez sur « vérifiez ce filtre », vous verrez alors l’avant et l’après. Avant le nombre de fois que le fantôme a été « enregistré » par Google Analytics puis après, grâce au filtre. Normalement, le champ devrait être nul.
Il ne vous reste plus qu’à enregistrer votre filtre.
Pour une raison tout à fait incompréhensible cependant, si vous enregistrez le filtre puis revenez le vérifier plus tard, Google vous indiquera alors : Ce filtre n’aurait eu aucun impact sur vos données. Soit sa configuration n’est pas correcte, soit l’ensemble de données échantillonnées est insuffisant.Ce qui parait plutôt logique puisque Google bloqué désormais le site.
Comment bloquer le maximum de bots dans Google Analytics ?
Google Analytics gère déjà une blacklist de referring bots (pas toujours à jour), si vous voulez en profiter, dans Admin > Propriété > Vue > paramètres de la vue, cochez « Exclure tous les appels venant de robots connus ».
Alors ? avez-vous réussi à faire la chasse complète aux robots ? Si vous en découvrez d’autres qui font 0 mn et 100 % de taux de rebond, partagez-les dans les commentaires, cela nous permettra ainsi à tous d’avoir des stats plus réelles !
Lisa
Les derniers articles par Lisa (tout voir)
- Passer en HTTPS un site WordPress chez OVH - 3 mars 2017
- Comment repérer les faux profils Linkedin et les invitations douteuses ? - 2 novembre 2015
- Google Analytics : bloquer 4webmasters .org et tous les bots / sites référents - 20 mai 2015
Tu veux gagner de l'argent avec ton blog ?
Lis tout de suite BlogBuster dispo sur Amazon, Kobo, Fnac, iTunes pour 3,99 €
Nous te recommandons :
Commentaires (28)
Merci pour ces informations. Ces statistiques faussées, c’est un sacré problème.
Y a un truc que je n’ai pas compris: la méthode du filtre pour 4webmasters.org , ça enlève les occurrences des anciennes statistiques, ou c’est pour les statistiques à venir?
Juste pour les statistiques à venir :-) en fait c’est comme un filtre. Enfin cen est un d’ailleurs hehehe.
Bonjour Lisa,
Merci pour cet article. De supers conseils !
Récemment, nous avons vu arriver ce nouveau robot : sanjosestartups.com, qui nous rend visite de manière quotidienne en plombant lui aussi nos stats !
Bref, c’est un combat quotidien.
Bonne continuation,
Bonjour,
Merci pour ce tuto. En revanche, le filtre ne semble toujours pas marcher sur 4webmasters.org car je le vois toujours en temps réel. Que puis je faire de plus ?
Merci :)
Est ce que tu viens d’appliquer le filtre ? Sûrement le cache qui met un peu de temps à flusher.
Je l’ai appliqué ce matin avant mon com’.
J’ai également revu mon htaccess mais de voir le bot continuer de me narguer en direct ça me stresse :D
Ne t’inquiète pas je pense que c’est temporaire et comme indiqué il ne s’agit nullement d’un bot mais d’un bug GA.
Ok c’est cool. J’attends 2/3 jours et je reviens vers toi.
En revanche, je n’ai pas trouvé dans mon GA le « vérifiez ce filtre ».
Merci :)
Il est tout en bas à la fin de l’ajout de ton filtre. Tu peux cliquer dessus et ça te dira si ton filtre sera efficace ou pas :)
Y avait rien. Je vais refaire une passe dessus :)
Bon ben de mon coté ça ne marche toujours pas et visiblement mon htaccess n’est pas efficace non plus… #boulet
Je ne trouve pas le test de mon filtre. #Boulet bis ? http://img11.hostingpics.net/pics/373655CaptureAnalytics.png
Est-ce que tu es bien sous l’onglet vue ? Car normalement tu devrais voir beaucoup plus d’onglets sous « filtres ». Et tu ne devrais pas voir corbeille par exemple ni historique des modifications. Regarde l’image plus haut.
C’est sque je disais. #Boulet !
Si je peux apprendre de mon erreur, ça sert à quoi les autres filtres alors ?
Merci beaucoup pour cet article! Je n’avais jamais rien trouvé jusqu’à ce que je tombe sur ton blog! Je vais mettre en application tout ça!
Bonjour,
Personnellement j’utilise un site e-commerce et je n’ai donc pas accès au htaccess… Comment savoir s’il s’agit d’un « ghost referrer » ou d’un spammeur qui vient effectivement sur le site ? Pour ma part je ne peux agir que sur les premiers.
D’autre part, est-ce que je dois faire un filtre par ghost refferer ou ajouter les adresses à la suite, séparés par une virgule et un espace ? (4webmasters.org, trafficmonetize.org, etc..)
Merci d’avance
Olivier
Hello.
Le tips marche d’enfer.
La j’ai subit une nouvelle « attaque » qui arrive masquée, et qui se cache sur plusieurs serveurs de manière simultanée : http://www.motardconnard.com/wp-content/uploads/2015/06/ana.png
Celle la je ne sais pas comment la contrer… Any Idea ?
Il va falloir trouver le referrer. La ton lien ne dit rien.
C’est bien mon souci. Grâce à vous j’ai pu en filtrer pas mal, mais celui-ci fait le fantôme ^^
Humm…. Alors la je ne vois pas du tout. Quand tu vérifies les sources de trafic qu’est ce que Google analytics te donne en numéro 1 ? Si c’est du direct dans ce cas privilégier une attaque. Et pas grand chose à faire à part attendre que ça passe….
Justement je n’ai rien.
Et comme sur la photo, c’est une attaque simultanée via différents serveur.
J’ai déjà eu ce cas mais j’ai filtré.
La c’est vraiment transparent…
Bonjour,
De mon coté, je suis assez embêtées car les différentes techniques marchent avec tous les robots sauf le principal: 4webmasters.org
Mes stats restent fausses même après avoir mis en place le filtre.
Y-a-t-il quelque chose que je fais mal?
Merci
Cecile,
Moi ça marche parfaitement !
D’ailleurs, Merci au blog car je suis passé d’un taux de rebond de 80% à 56% en 2 semaines et je pense que ça va continuer de baisser car au quotidien, je suis autour de 10/20% de taux de rebond.
Vérifie peut être que tu n’as pas mis d’espace dans les noms de domaines intégrés dans le filtre ?
Bonne journée
Super article !
Je pensais être parano sur le but de ces bots mais ton analyse confirme bien mon idée…
Pas sympa… Mais bête cette technique pour faire de l’argent sur le dos d’amazon !
Ton tuto est vraiment cool Lisa :) Je crois qu’il y a une astuce supplémentaire qui permet de bloquer encore un peu plus spam, c’est de modifier son fichier .htaccess directement sur le serveur. Tu peux aller ici pour avoir la méthodologie c’est pas mal expliqué : http://www.mikii.fr/blog/2015/07/08/comment-supprimer-referrer-spam/
Pourquoi ne choisit-on pas « sites référents » comme source de filtrage ?
Dans l’article tu invites à
« Cliquez sur exclure, puis sur Source de la campagne dans champ de filtrage »
Car pour une raison tout à fait inconnue ça ne marche pas sinon.
Très bon article , sa m’a appris certaines choses sur les bots que je ne connaissais pas merci beaucoup , bonne continuation
Je l’ai appliqué ce matin avant mon com’.
J’ai également revu mon htaccess mais de voir le bot continuer de me narguer en direct ça me stresse :D