[Référencement de votre site web] Comment bloquer les robots de référencement ?

Robots.txt : Disallow all / Bloquer tous les robots

 
Si vous souhaitez bloquer totalement l'accès à votre site à tous les robots et moteurs de recherche ("Disallow all"), il suffit simplement d'avoir un fichier robot.txt contenant ces deux lignes :

 
  1. User-agent: *
  2. Disallow: /
 
La première ligne signifie que l'instruction en dessous s'applique à tous les robots. La seconde ligne permet de bloquer tout ce qui est accessible dans le domaine : tous les répertoires, dossiers, pages et fichiers.

A noter que cette règle ne sera suivie que par les robots respectant le protocole robots.txt (Google, Bing / MSN, etc). Des robots malveillants ou ne suivant pas les règles du robots.txt pourront toujours accéder au contenu du site.

Par ailleurs, l'instruction Disallow empêche l'exploration du site mais n'empêche pas l'indexation des répertoires et des pages du domaine. C'est pourquoi même avec un Disallow total, Google peut toujours potentiellement indexer certaines pages du site. Si vous souhaitez également bloquer l'indexation, vous pouvez utiliser la balise meta robots.

Pour conclure, si vous voulez être certain de bloquer la totalité du site, vous pouvez également implémenter une authentification via formulaire ou via le fichier.htaccess sous Apache qui renverra un code HTTP 401 ("Unauthorized", "Une authentification est nécessaire pour accéder à la ressource") aux robots, empêchant ainsi ceux-ci d'accéder totalement aux contenus du site.