Désindexer des pages de votre site pour améliorer le SEO
Comment cacher des pages, ou des dossiers, à Google et tous les autres moteurs de recherche !

On pense parfois qu'avoir un maximum de pages indexées sur les moteurs de recherche est une bonne chose en termes de référencement naturel est une bonne chose.
Mais ce n'est pas aussi simple que ça.
Il est vrai que le nombre de pages disponibles est l'un des critères pour faire plaisir à Google et consort... Mais il s'agit des pages de contenus, des documents web contenant des informations que les utilisateurs sont susceptibles de rechercher uniquement !
Si votre site référence plus de pages légales (mentions, cgv, rgpd,...) et d'administration (contact, connexion, inscription,...) que de pages de contenu, cela risque de nuire à votre référencement naturel.
Pour résoudre ce problème, il est possible d'indiquer aux robots d'indexation que certaines pages n'ont pas besoin d'être référencées sur les moteurs de recherche.
Voici comment faire !
Désindexer une page (balise méta)
Il est possible d'indiquer aux "crawlers" des moteurs de recherche qu'une page en particulier ne doit pas être indexée, pour cela, il suffit d'utiliser la balise méta "robots". Comme ceci :
<META NAME="robots" CONTENT="noindex, nofollow">
noindex
Comme son nom l'indique, la valeur "noindex" va empêcher la page d'apparaitre dans les résultats de recherche, simple et efficace.
nofollow
Même si la page n'est pas indexée, les robots vont quand même la parcourir à la recherche de liens pour indexer d'autres pages du site. Si vous ne voulez qu'aucun lien contenu dans la page ne soit suivi par le robot, il faudra utiliser la valeur "nofollow".
Désindexer plusieurs pages (fichier robots.txt)
Plutôt que de choisir de désindexer les pages une-par-une, vous pouvez choisir une version plus globale pour rendre "invisible" un ou plusieurs dossiers aux crawlers.
Pour cela, il vous suffit de créer un fichier robots.txt et de le mettre à la racine de votre site (à côté de votre index.html), et d'indiquer les dossiers à ignorer comme ceci :
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Il est possible de spécifier des "User-agent" spécifiques, pour cibler un moteur de recherche en particulier, mais le caractère "*" vous permet de cibler tous les robots d'un coup !
Si vous voulez tester votre fichier robots.txt, Google met à disposition un outil prévu pour ça dans ses outils pour les webmasters : https://support.google.com/webmasters/answer/6062598
J'espère que cet article vous aura été utile, et à bientôt sur le blog !
Les articles les plus populaires du blog
Envie de continuer à lire des articles autour du développement web (entre autres) ? Voici la sélection des articles de mon blog les plus lus par la communauté !
Voir la sélection 🚀Recevez les articles de la semaine par e-mail pour ne rien manquer !
S'abonner à la newsletter 📧
À propos de l'auteur
Hello, je suis Nicolas Brondin-Bernard, ingénieur web indépendant depuis 2015 passionné par le partage d'expériences et de connaissances.
Aujourd'hui je suis aussi formateur/coach pour développeurs web juniors, tu peux me contacter sur nicolas@brondin.com, sur mon site ou devenir membre de ma newsletter pour ne jamais louper le meilleur article de la semaine et être tenu au courant de mes projets !
Photo de Caleb Woods sur Unsplash