Les bases du SEO #4 : Empêcher l'indexation d'une page

Car toutes vos pages n'ont pas d'intérêt à ressortir en premier sur Google !

Article publié le 06/04/2021, dernière mise à jour le 22/10/2024

Lire l'article #3 de la série intitulé "Analyser l'évolution de son référencement"

Avant de commencer à optimiser le référencement de ces pages, il est intéressant de savoir quelles pages il vaut mieux ne pas indexer et comment faire. C'est ce que nous allons découvrir aujourd'hui.

Pourquoi refuser l'indexation d'une page ?

Il y a trois principales raisons à vouloir éviter que les robots des moteurs de recherche indexent certaines de vos pages :

La première étant que l'on a pas envie de présenter une page inutile à un utilisateur, et risquer de le perdre dès son arrivée. C'est le cas pour des pages de remerciement, des pages de mentions légales et autres pages qui font partie de la ligne de vie du site mais que l'on ne veut pas présenter à un visiteur lors de sa première visite.

La deuxième est qu'il faut faire attention aux pages soumises aux moteurs de recherche, car si on laisse trop de pages avec un contenu faible, un simple formulaire (connexion par exemple), une liste de liens sponsorisés, l'algorithme de ranking risque de faire baisser la réputation du site à cause du contenu qu'il aura parcouru.

Et la dernière étant que le contenu de certaines pages peut être quasi-similaire à d'autres, risquant par exemple de faire croire à du contenu dupliqué. On peut par exemple trouver ce genre de pages sur des blogs n'ayant qu'un seul auteur, la page des articles de l'auteur aura le même contenu que la page d'accueil du blog.

Comment faire ?

Il existe deux méthodes, l'une consistant à activer l'indexation page par page, et l'autre consistant à créer un fichier regroupant un ensemble de règles basées sur des patterns, appelé robots.txt :

Avec une balise meta

Cette solution est viable si le nombre de pages que vous devez éviter d'indéxer est restreint, ou si aucune des urls de ces pages ne suit un pattern précis. Dans ce cas, il vous suffira d'ajouter la balise suivante dans l'élément de votre page :

<head>
    ...
    <meta name="robots" content="noindex, nofollow">
    ...
</head>

La directive "noindex" indique aux robots de ne pas indexer la page, tandis que "nofollow" empêche l'indexation des liens. Il est possible de mixer les deux directives en utilisant leur valeurs inverses "index" et "follow".

Le fichier robots.txt

Le fichier robots.txt est à créer à la racine du site (le nom du fichier est sensible à la casse), et sera automatiquement lu par les crawlers. Ce dernier contient des groupes de règles pour indiquer l'indexation (ou non), de certaines pages filtrées par des patterns d'urls :

# robots.txt
User-agent: * # any robot
Disallow: /private/

User-agent: *
Disallow: /contact

En plus du pattern, il est possible de sélectionner uniquement certains crawlers spécifiques. Pour plus d'informations détaillées sur le robots.txt, voici un article spécialisé sur le site moz.com

Hello I'm Nik sur Unsplash

Vous avez terminé l'article ?

Aucun commentaire pour l'instant