SEO Cleaner

Encore un outil anti-pingouin?

Sur le marché des solutions anti-pingouin il y a un grand nombre de produits anglophones qui vous disent quels sont les mauvais liens qui reçoit votre site. Il s'agit d'outils SaaS, avec des complexes algorithmes pour séparer le bon grain de l'ivraie et qui coûtent plutôt cher.

Décider de la toxicité ou pas d'un lien avec une application est parfois très difficile même avec des outils faisant appel à des techniques de machine learning. Je le vois tous les jours, deux référenceurs face au même dossier, ne seront pas forcement d'accord sur le niveau auquel il faudra tailler les liens pour sortir d'une pénalité.

Pour ces raisons, j'ai décidé de développer cet outil avec une approche un plus humble :

  1. Seo Cleaner est un data miner qui va vous débroussailler le terrain en vous fournissant autant d'information que possible pour vous aider à déterminer quels sont les liens qui portent préjudice à un site.
  2. SEO Cleaner s'adresse à des référenceurs. Si vous n'avez pas de compétences dans ce domaine, je vous conseille de lire au moins ce qui Google dit sur les liens factices.
  3. Il ne s'agit pas d'une solution miracle du type "brancher et oublier". SEO Cleaner ne peut en aucun cas substituer le bon jugement d'un référenceur.
  4. SEO Cleaner s’exécute sur votre poste quand vous voulez et vous permet d'exporter toutes les informations récupérées pour les triturer allégrement avec votre tableur favori. Comme il n'utilise pas des ressources d'un serveur comme les services SaaS, Seo Cleaner 0.4 peut être partagé avec la communauté gratuitement.
  5. Ce logiciel s'appuie exclusivement sur les données qu'il peut collecter gratuitement sur les sites testés et ne fait pas d'appel à des bases de données tierces du type SEMRush ou AHrefs (du moins pour l'instant), ce qui le limite par rapport à d'autres solutions payantes (très payantes).

Téléchargement

Le téléchargement se fait exclusivement sur SEO.fr.

Limites !

SEO Cleaner limite volontairement certains points :

  1. Le nombre maximum de liens par domaine. Dans les cas de liens sitewide, souvent il n'est pas intéressant de crawler des milliers de pages pour récupérer à chaque fois le même lien, car cela ralenti le crawl et supose une charge inutile pour le domaine checké. Pour ces raisons, au moment de l'import SEO Cleaner va garder seulement 25 liens par domaine.
  2. Le nombre de threads. SEO Cleaner est un citoyen poli du web, il va donc limiter le nombre de connexions.
  3. Du moment où SEO Cleaner va recevoir une erreur 500 d'un domaine, il va le mettre dans une liste noire pour ne plus le crawler à nouveau dans la même session.
  4. Dans le processus de modification du profil de liens, il est essentiel de pouvoir contacter les webmasters pour leur demander de modifier ou supprimer les liens pointant vers le site étudié. L'un des moyens les plus simples de le faire est de récupérer les adresses e-mail présentes sur les pages web des sites qui font les liens. Malheureusement, le logiciel pourrait être détourné de sa vocation première de diagnostic du profil de liens, et être utilisé à des fins de collecte d'adresses e-mail, ce qui est interdit par la loi française : spam aspirateurs d'e-mails. Pour cette raison, SEO Cleaner ne collecte aucune adresse e-mail.

Tous les processus ont lieu en mémoire et rien n'est stocké en BDD, ce qu'implique que SEO Cleaner est aussi limité par votre plateforme. La taille de la mémoire allouée à votre JVM (Java Virtual Machine) déterminera combien de travail peut effectuer le logiciel.

SEO Cleaner joue clean avec les robots.txt

Seo Cleaner lit et respecte le robots.txt. Il est tellement poli, que s'il ne trouve pas de consignes adressées à son nom, il va suivre par défaut celles que vous auriez spécifiées pour Googlebot.

Seo Cleaner utilise l'User-Agent "Seocleanerbot", ce qui permet de le bloquer facilement si besoin. Pour cela deux lignes dans le fichier robots.txt à la racine de votre site suffisent :

User-agent: Seocleanerbot
Disallow: /

Bugs connus

  • Parfois l'un des threads se bloque et empêche SEO Cleaner de finir le crawl. Cela peut arriver sur une liste de liens que quelques minutes après peut être traité avec succès.
  • SEO Cleaner ne suit pas les redirections JavaScript.

Share ideas to get ideas !

Thématique des pages

Je cherche des solutions pour déterminer la thématique des pages. J'ai essayé de le faire avec le classificateur Bayesian d'Apache OpenNLP, en partant sur 150 catégories et une centaine de documents par catégorie. Le taux de réussite étant très bas (50-60%), je dû le retirer de SEOCleaner.

Emplacement des liens

Le lien se trouve-t-il dans un menu, au milieu du texte ou dans le footer ? L'importance du lien n'est pas de tout la même, mais comment déterminer ça ?

Des suggestions, des bugs, du feedback ?

Je suis totalement ouvert à toute proposition d'amélioration, allez-y partagez vos impressions.