webleads-tracker

WordPress & Référencement naturel
Mes servicesWordPress - Référencement
Hébergement WordPress
Vous êtes ici : SeoMix » Référencement naturel » Robots.txt et WordPress
WP Tech 2014

Robots.txt et WordPress

Robots.txt et WordPressParmi les pratiques les plus anciennes en référencement naturel, le fichier robots.txt est toujours utilisé par un grand nombre de référenceur.

Mais est-il encore utile ? Et si oui, comment le paramétrer sur votre site Internet et sur WordPress ?

Article mis à jour le 06/09/2012

Qu'est-ce que le fichier robots.txt ?

Le robots.txt est un fichier que l'on place à la racine de son serveur et qui indique aux moteurs de recherches et autres robots le comportement qu'ils doivent adopter quand ils parcourent et indexent votre site Internet. Pour ceux qui ne comprennent pas le terme, "indexer" signifie pour un moteur de recherche d'analyser, de parcourir et de garder en mémoire votre contenu, et donc de pouvoir le proposer dès qu'un Internaute faire une recherche.

Grâce à ce fichier, vous pouvez indiquer quels contenus doivent être indexés et lesquels doivent être ignorés. En d'autres termes, c'est une aide pour améliorer votre référencement naturel, notamment pour bloquer l'accès à certains contenus privés, inutiles ou nuisibles.

Le robots.txt ne fait pas tout

Le hic, c'est que ce fichier est insuffisant pour s'assurer que les pages bloquées ne soient pas visibles dans les moteurs de recherche.

La preuve : Google indique dans les résultats que la page n'a pas pu être indexée correctement, mais que celle-ci est quand même présente présent dans l'index... En gros, cela veut dire : "on a bien compris votre fichier robots.txt, mais on s'en tape comme de l'an 40" (et dieu sait combien c'était fun en l'an 40).

Page bloquée par Robots.txt dans les résultats de Google

Résultats Google avec une page bloquée par Robots.txt - Source Search Engine Land

En fait, cela s'explique par le fait que Google a trouvé des liens pointant vers cette page, sans pour autant en connaître le contenu réel. On peut donc se poser la question de la pertinence de Google sur ce point précis.

Si vous utilisez le fichier robots.txt pour restreindre l'accès à certains éléments de votre site Internet, posez-vous donc d'abord ces quelques questions :

  • Existe t-il une réelle utilité à restreindre l'accès à ces contenus ?
  • Si je restreint l'accès, ai-je limité au maximum les liens qui pointent vers ceux-ci ?

Le fichier robots.txt ne doit jamais être utilisé comme une rustine pour cacher certains contenus. Partez du principe que ce que vous devez indexer doit être accessible facilement par l'utilisateur et le moteur de recherche, ce qui repose sur la mise en place d'une structure de site Internet cohérente.

Pour être concret : si vous avez un contenu bloqué par le fichier robots.txt, c'est un peu comme si vous aviez une superbe porte d'entrée à l'avant de votre maison, mais que vous disiez aux invités de faire le tour...

Cela ne vous dispense donc pas d'ajouter sur toutes vos pages bloquées une ligne pour lui indique de ne pas indexer le contenu de celles-ci :

<meta name="robots" content="noindex, nofollow">

Robots.txt : fonctionnement

Indexer tous vos contenus

Si vous avez dans l'optique de référencer l'intégralité de vos pages, de vos contenus et de vos médias, n'utilisez pas le fichier robots.txt : il ne vous servira à rien.

Par défaut, tous les robots et moteurs de recherche vont indexer tout ce qu'ils trouvent. Donc si vous n'avez rien à bloquer ou à cacher, inutile de lire la suite de cet article et allez plutôt boire un café ou une bière (en fonction de l'heure qu'il est). Attention cependant, je connais peu de sites qui sont dans ce cas de figure...

Désindexer vos contenus

Le fonctionnement pour désindexer un contenu grâce au fichier robots.txt est identique sur WordPress que sur n'importe quel autre site Internet. Il faut indiquer le nom du robot concerné suivi des règles que celui-ci devra suivre :

User-agent: Nom du robot
Disallow: répertoire à désindexer

Dans un même fichier robots.txt, on peut avoir :

  • plusieurs user-agent différent.
  • plusieurs lignes "Allow" (autoriser) ou "Disallow" (Interdire) pour chaque user-agent.

On peut par exemple bloquer Google sur certains répertoire, Yahoo sur d'autres et Bing sur aucun.

User-agent: Nom-du-1er-robot
Disallow: /repertoire-a-desindexer
Disallow: /2eme-repertoire-a-desindexer

User-agent: Nom-du-2nd-robot
Disallow: /repertoire-a-desindexer
Disallow: /2eme-repertoire-a-desindexer
Disallow: /3eme-repertoire-a-desindexer

...

Le fichier robots.txt permet heureusement d'utiliser le caractère * qui indique "quel que soit le contenu" ou "quel que soit le robot". C'est ce qu'on appelle un Wildcard, mais il n'est pas supporté par tous les robots et moteurs de recherche. Heureusement pour nous, les principaux comprennent parfaitement cette commande (Google, Bing, ...). Voici quelques exemples concrets de son utilisation :

User-agent: Nom-du-1er-robot
# tout répertoire qui commence par zigo
Disallow: /zigo*
# toute image au format jpg
Disallow: /*.jpg
# toute URL qui contient le caractère ?
Disallow: /*?

# pour tous les robots
User-agent: *
Disallow: /zigossqdqf

Si vous travaillez sur un nouveau site ou que le site est en maintenance, et que vous voulez vous assurer qu'aucun moteur ne puisse rien indexer, il existe une simple commande qui force la non-indexation de tout le contenu par n'importe quel robot :

User-agent: *
Disallow: /

Maintenant que vous avez compris le concept de base, voyons comment créer un fichier robots.txt pertinent pour le CMS WordPress.

WordPress et Robots.txt

Les fichiers inutiles de WordPress

De base, un nombre relativement important de fichiers issus du cœur de WordPress peuvent être indexés, alors que ceux-ci n'ont aucun intérêt pour le moteur de recherche ou le visiteur. De même, les fichiers de vos plugins ou de vos thèmes ne servent à rien pour l'internaute. Autant indiquer directement dans le fichier robots.txt que vous ne voulez en aucun cas qu'ils soient indexer :

User-agent : *
# On désindexe tous les URL ayant des paramètres (duplication de contenu)
Disallow: /*?
# On désindexe la page de connexion (contenu inutile)
Disallow: /wp-login.php
# On désindexe tous les fichiers du coeur de WordPress (contenus inutiles)
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
# On autorise Google à indexer les fichiers mis en ligne dans vos articles et pages (images, vidéos, audio,...)
Allow: /wp-content/uploads

Avec ce simple code, nous avons déjà une base saine. Mais nous pouvons aller plus loin.

Référencement et fichiers sensibles

La partie suivante du fichier robots.txt de WordPress permet d'améliorer et de compléter le paramétrage optimale du CMS pour le référencement naturel. Nous allons en effet bloquer l'accès à certains contenus et URL indésirables :

User-agent: *
# On bloque les URL de ping et de trackback
Disallow: */trackback
# On bloque tous les flux RSS sauf celui principal (enlevez /* pour bloquer TOUS les flux)
Disallow: /*/feed
# On bloque toutes les URL de commentaire (flux RSS inclus)
Disallow: /*/comments

Attention, cela ne vous dispense pas de correctement paramétrer votre blog WordPress, sans quoi le code précédent est aussi utile que du pain rassi au beau milieu d'un désert aride. Il vous faut donc :

  • Supprimez dans votre thème les liens qui pointent vers les trackbacks de vos articles : c'est une spécificité de WordPress et ce CMS ajoute déjà ces informations dans le header (une section visible uniquement du moteur de recherche). Inutile donc de les garder dans le thème visible par les visiteurs.
  • Ne divisez pas en sous-pages vos commentaires, car cela créer des pages souvent pauvres en contenus, tout en diluant inutilement la popularité du site sur des pages secondaires. Pour changer cela, rendez-vous dans l'administration dans "Réglages => Discussions".
  • Supprimez dans votre thème toute référence aux flux RSS (sauf celui de l'accueil). Vous pouvez à la rigueur garder ceux des catégories mais par pitié supprimez ceux des commentaires. Dans le cas contraire, je serais obligé de vous abattre à coup de pelle...

Continuons sur notre lancée : certains fichiers ne devraient jamais être accessibles par une autre personne que le webmaster, et encore moins être mis à disposition dans les résultats de recherche de Google, Yahoo ou Bing. Le fichier robots.txt peut heureusement bloquer l'accès à ceux-ci, avec ces quelques lignes :

User-agent: *
# On élimine ce répertoire sensible présent sur certains serveurs
Disallow: /cgi-bin
# On désindexe tous les fichiers qui n'ont pas lieu de l'être
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.gz$
Disallow: /*.cgi$

Google Image et Adsense

Vous pouvez aussi choisir de ne pas indexer des pages, mais de faire en sorte que les images qu'elles contiennent soient quand même ajoutées dans le moteur  de recherche d'image de Google. Si vous êtes dans ce cas de figure, rajoutez ce code :

User-agent: Googlebot-Image
Disallow:

Si comme un grand nombre de sites vous faites appel à la plateforme Adsense pour afficher des publicités, voici quelques lignes qui permettront à leur script de fonctionner parfaitement sur toutes vos pages, quels que soient les autres lignes de votre fichier robots.txt :

# Autoriser Google AdSense
User-agent: Mediapartners-Google
Disallow:

Le fichier sitemap ?

Le fichier robots.txt permet aussi d'indiquer l'URL de votre fichier sitemap, qui lui-même recense tous les URL de vos différents contenus, sous la forme suivante :

Sitemap: http://www.monsite.fr/sitemap.xml

Honnêtement, ne le faites pas ! Et la raison en est toute simple : cela ne sert à rien. Il est bien plus efficace d'ajouter votre sitemap directement dans les centres webmaster de chaque moteur de recherche :

Non seulement c'est plus rapide et efficace, mais chaque centre vous donnera des informations intéressantes sur la validité du fichier sitemap:

Sitemap et centre Webmaster de Google

Sitemap et centre Webmaster de Google

Pire encore, si vous indiquez clairement l'URL de votre fichier sitemap, vous facilitez la tâche de tous les personnes qui voudront scanner votre site ou voler vos contenus (il existe des dizaines d'outils gratuits et payants pour cela, croyez-moi...).

Le code complet

Vous l'aurez donc compris (enfin j'espère) : le fichier robots.txt va vous permettre de bloquer l'accès à certains contenus, sans pour autant être la solution miracle. A vous d'optimiser votre site pour bloquer de manière plus complète et naturelle l'accès aux contenus privés, dupliqués ou inintéressants.

Et voici le code final du fichier robots.txt pour WordPress :

User-agent: *
Disallow: /*?
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Allow: /wp-content/uploads
Disallow: */trackback
Disallow: /*/feed
Disallow: /*/comments
Disallow: /cgi-bin
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.gz
Disallow: /*.cgi

User-agent: Googlebot-Image
Disallow:

User-agent: Mediapartners-Google
Disallow:

Si vous avez des remarques, questions ou critiques, n'hésitez pas.

Les thèmes relatifs

Voici les thématiques abordées par Robots.txt et WordPress:

48 commentaires
  1. Denis
    16 messages

    Denis - Le 04 septembre 2012, 06:20

    Juste une remarque : les SWF sont aujourd’hui indexés par Google !

    Merci pour cet excellent travail, Daniel !

    Concernant le sitemap, je ne suis pas d’accord eu égard au nombre de spiders qui l’indexent « spontanément » ! De mon point de vue, c’est une erreur.

    N’oublions pas Yandex.

  2. Watussi
    3 messages

    Watussi - Le 04 septembre 2012, 06:32

    Merci pour cet article.

    Petite précision : Google n’ignore JAMAIS le roboots.txt

    - Avec le robots.txt, tu dis à Google de ne pas crawler tel ou tel contenu, et jusqu’à preuve du contraire c’est systématiquement respecté (et ce sera une révolution le jour ou ça changera).

    - Par contre, tu ne lui interdit pas d’indexer, et dans certains cas il peut indexer du contenu sans l’avoir crawlé (mais peu probable d’espérer beaucoup de trafic dans ce cas…).

    - Si tu veux interdire l’indexation, il faut utiliser un no-index. La subtilité étant que si la page est bloquée dans le robots.txt, Google ne peut pas voir qu’il y a un noindex…

  3. Aurélien
    1 message

    Aurélien - Le 04 septembre 2012, 08:01

    Bonjour !
    Il est vrai que le problème illustré par le screen de search enfine land se rencontre assez souvent.

    Autre bug rencontré parfois avec WordPress : dans vie privée, l’option « ne pas indexer » est cochée dans un premier temps et lorsqu’on veut mettre le site en ligne et qu’on coche l’option « indexer mon site », cela ne change rien.
    Dans ce cas le fichier robots peut être d’un grand secours.

  4. François-Olivier
    8 messages

    François-Olivier - Le 04 septembre 2012, 09:37

    Ce n’est pas forcément une bonne idée de bloquer la totalité des JS à Google.
    On sait tous que Google s’en sert pour interpréter les pages. Parfois jquery est nécessaire pour des onglets, pour des actions permettant de masquer/afficher du contenu, etc. Il faut que GG puisse « comprendre » que ton div caché peut être affiché par une action utilisateur.

    Pour ma part je bloque les JS indirectement : je disallow un répertoire complet dans lequel je mets les JS que je ne veux pas montrer (cryptage / obfuscation notamment).

  5. Denis
    16 messages

    Denis - Le 04 septembre 2012, 09:58

    Autre oubli

    Concernant les fichiers js et css, Matt Cutts avait recommandé de ne pas les désindexer !

    A la vue de mes logs Apache, les bots de Baïdu, d’Exalead, … utilisent les indications fournies par le fichier robots.txt sur l’emplacement du fichier sitemap ! Il est donc indispensable de maintenir ce fichier et l’information sur son emplacement.

  6. Ghislain
    2 messages

    Ghislain - Le 04 septembre 2012, 10:09

    Quelle prise de tête ce robots.txt! Récemment j’ai eu le cas, un robots.txt (made in seomix) ignoré tranquillement.. le fichier lui même était indexé.

    Aujourd’hui, je l’ai carrément supprimé

  7. Jimmy
    4 messages

    Jimmy - Le 04 septembre 2012, 11:35

    bon article, par contre vous ne parlez pas du fichier robots.txt virtuel qui est généré par WordPress.
    c’est un fichier basique qui ne comporte que ces 3 lignes :

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    d’après ce que j’ai compris ce fichier est généré par WordPress quand il n’y a pas d’autres fichiers robots.txt, mais il n’est pas présent « physiquement » sur le serveur, par contre contre si on tape www.monsite.com/robots.txt alors on le voit.

  8. BenOne
    5 messages

    BenOne - Le 04 septembre 2012, 11:38

    En ce qui concerne le sitemap.xml.
    Ok c’est sûrement mieux d’utiliser les outils de webmasters proposés par Google et Bing.

    Mais si on ne le met pas, comment vont faire les moteurs de recherche autre que Google et Bing ?

    De plus, le sitemap est souvent (je pense) à la racine du site, les outils de pompage de site ne sont pas stupide, qu’il soit indiqué ou non dans le robots.txt, j’imagine qu’ils iront guetter à l’aveuglette le monsite.fr/sitemap.xml, non ?

    Sinon, dans votre article vous parlez de bloquer les commentaires et les flux rss, pourquoi ces lignes ne sont pas dans le fichier robot final ?
    Elles sont inutiles ou c’est un oublie ?

    En tout cas merci pour cette article détaillé.

  9. Daniel Roch
    727 messages

    Daniel Roch - Le 04 septembre 2012, 12:15

    @Denis: remarque pertinente pour le fichiers SWF, c’est corrigé.

    A ceux qui ne sont pas en accord avec ce que je dis sur le sitemap dans le fichier robots.txt, il faut savoir que seuls les robots qui apporteur du trafic sont pertinents, à savoir Google en France (éventuellement Bing et Yahoo, mais c’est tout). Mieux vaut une belle page plan de site complet, une structure cohérente et un bon maillage interne pour assurer l’indexation de n’importe quel contenu. L’ajoute au robots.txt ne facilitera pas la tâche de Google et Yahoo. D’ailleurs, rien n’empêche de nommer son fichier sitemap toto.xml et de le soumettre comme tel dans les centres webmaster.

    @Watussi : Google ignore parfois le robots.txt malheureusement. La preuve avec l’image dans cet article et avec plusieurs tests de référenceurs sur le sujet.

    @François-Olivier: d’accord aussi avec toi pour les fichiers JS. C’est corrigé.

    @Denis: pour le CSS, c’est corrigé aussi.

    @Jimmy : mieux vaut passer outre le robots.txt virtuel de WordPress. Il est malheureusement incomplet…

    @Benone : pour les flux dans le code final, c’était un simple oubli.

  10. Visiboost
    4 messages

    Visiboost - Le 04 septembre 2012, 12:20

    Merci pour ces différents éléments plutôt pertinents ;)

    Comme certains commentaires précédents, j’attirerais l’attention sur le fait qu’il n’y a pas de règles globales à appliquer à tout site WP mais bien des grands principes qu’il faut parfois ajuster au cas par cas.

    Par exemple, le Disallow: /*? c’est très bien … à condition de bien avoir activé la réécriture d’URL ! et aussi de ne pas avoir de plugins (anciens ou mal codés) créant des URLs avec paramètres pour du contenu pertinent.

    De plus, ne pas oublier que ce fichier est aussi un « trou » de sécurité au sens où vous indiquez aux pirates potentiels où trouver les fichiers « sensibles ».
    Par exemple, il n’est pas rare de sécuriser l’accès au Back Office de WordPress en modifiant son URL (/wp-admin et wp-login par défaut). Dans ce cas, il ne faut bien entendu pas mettre ces nouvelles URLs dans le robot.txt car il est bien entendu accessible par tous !

  11. Watussi
    3 messages

    Watussi - Le 04 septembre 2012, 13:08

    @Daniel,

    Je pense que tu as mal lu / compris mon commentaire.

    Ce qu’il faut bien comprendre c’est que le robots.txt ne sert pas à interdire l’indexation, mais à interdire le crawl. Généralement l’un va de pair avec l’autre, mais pas toujours.

    L’image de ton article prouve que la page a été indexée, rien d’autre.

    Jusqu’à preuve du contraire, Google ne crawl pas les URLs interdites via le robots.txt

    Cette nuance est très importante à comprendre.

    C’est d’ailleurs bien documenté par Google : http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=156449

  12. Daniel Roch
    727 messages

    Daniel Roch - Le 04 septembre 2012, 13:58

    @Watussi : j’avais bien compris. Mais j’ai déjà eu le cas de pages interdites dès leur création et qui ont été quand même crawlées et indexées… Le robots.txt n’est donc la solution parfaite et complète pour bloquer un crawl de robots, et encore plus si ces robots viennent aspirer le contenu d’un site.

  13. BenOne
    5 messages

    BenOne - Le 04 septembre 2012, 14:18

    Je me pose une question :
    En mettant des Disallow: dans le robots.txt ont dit aux bots de ne pas indexer.

    Il comprend donc que tout ce qui a pas Disallow, il peut l’indexer ?

    Du coup, est-ce que les Allow: servent à qqch ?

  14. Denis
    16 messages

    Denis - Le 04 septembre 2012, 14:40

    @Daniel

    Pour l’intitulé du fichier sitemap, je reprenais là une convention, un usage. Il ne me viendrait pas à l’idée de l’appeler toto.xml ! ;+)

    Pour mes sites WordPress, j’utilise d’ailleurs le plugin Google XML Sitemaps. Excellent !

  15. Aroua
    2 messages

    Aroua - Le 04 septembre 2012, 15:14

    @Daniel Merci pour cet excellent article. Tu m’as promis un article sur le nettoyage des sites WordPress hackés, n’oublies pas hein! :p

    @Watussi @François-Olivier et @visiboost pour les commentaires tout aussi intéressants.

  16. Olivier Andrieu
    11 messages

    Olivier Andrieu - Le 04 septembre 2012, 16:10

    Salut Daniel

    quand tu dis :  » Google indique désormais dans les résultats que la page n’a pas pu être indexée correctement, mais que celle-ci est quand même présente présent dans l’index… »
    => Ce n’est pas vraiment ça : Google indique ainsi qu’il connait l’uRL de la page, il sait qu’elle existe mais il ne l’a pas indexé. Il n’a pas connaissance de son code. Ca a toujours été comme ça, sauf qu’avant il mettait en titre l’URL de la page et aucun snippet. Maintenant, il met ce message… Donc le robots.txt sert bien à quelque chose :-)

    Idem :  » Honnêtement, ne le faites pas ! Et la raison en est toute simple : cela ne sert à rien. Il est bien plus efficace d’ajouter votre sitemap directement dans les centres webmaster de chaque moteur de recherche »
    => Ca sert quand meme pour voila, ask.com, Exalead et tous les autres moteurs qui prennent en compte le standard Sitemaps.org et n’ont pas de webmaster tools. Bon ok c’est pas les principaux mais bon… :-))

    Bonne continuation. a+

  17. Daniel Roch
    727 messages

    Daniel Roch - Le 04 septembre 2012, 16:25

    @Benone : par défaut, les robots font ce qu’ils veulent. Le « allow » ne sert que pour contre-carrer une commande « disallow », comme dans cet article où le « allow » autorise le répertoire « uploads » situé dans le répertoire « wp-content », qui lui est bloqué.

    @Olivier : pour le premier point, c’est un peu complexe car théoriquement, Google n’a pas suivi le lien et n’a pas indexé ni « lu » le contenu. Si c’est vrai, alors pourquoi la page ressort dans les résultats alors qu’il n’en connait rien, pas même le title… En d’autres termes, il a quand même pris connaissance de son contenu (ou alors Google est devin…).

    Je suis tout à fait d’accord sur le second point. Mais pour ma part, je préfère freiner les autres robots car le potentiel de trafic ou de ROI possible est bien inférieur aux risques de vol de contenu, de consommation de bande passante énorme et autres joyeusetés…

  18. Olivier Andrieu
    11 messages

    Olivier Andrieu - Le 04 septembre 2012, 16:27

    @ Daniel : « Si c’est vrai, alors pourquoi la page ressort dans les résultats alors qu’il n’en connait rien, pas même le title »

    C’est simple : il a identifié un lien vers cette page, donc il la connait. :-)

  19. Daniel Roch
    727 messages

    Daniel Roch - Le 04 septembre 2012, 16:29

    C’est aussi ce que je me suis dit, mais dans ce cas cela va à l’encontre total des « conseils » donnés par Google sur le « Content is King ». Il serait aberrant de positionner une URL sans même en connaître le contenu…

  20. Olivier Andrieu
    11 messages

    Olivier Andrieu - Le 04 septembre 2012, 16:30

    Les lois, c’est Google qui les fait mais rien ne dit qu’il doit les appliquer à lui-même :-)))

  21. Watussi
    3 messages

    Watussi - Le 04 septembre 2012, 16:39

    Olivier a raison, c’est ce que j’essayais d’expliquer plus tôt dans la journée.

    Généralement, lorsqu’une page interdite dans le robots.txt ressort dans les SERPs, tu vois que le TITLE n’est pas le TITLE réel, c’est souvent une ancre de lien découverte par ailleurs qui est utilisée.

  22. Ben
    5 messages

    Ben - Le 04 septembre 2012, 17:45

    En gros si Google ne peux pas rentrer dans un appartement par la porte principale qui est fermée à clé, il va passer par le balcon du voisin qui fait fasse à la fenêtre restée ouverte.?

  23. François-Olivier
    8 messages

    François-Olivier - Le 04 septembre 2012, 18:06

    @BenOne : Allow: n’a jamais été admis dans le standard et ne veut d’ailleurs rien dire. C’est un simple fichier texte donc une info erronée ne renvoie pas d’erreur.

    Je crois que seul Google a dit qu’il comprenait le Allow: mais qui, encore une fois, ne sert à rien puisque tout ce qui n’est pas Disallow est autorisé.

  24. Denis
    16 messages

    Denis - Le 04 septembre 2012, 22:02

    @Olivier

    La soumission du sitemap à Ask ne fonctionne plus depuis quelques temps. Je ne sais pas dater précisément. J’avais lâché l’affaire.

    Et l’indexation des sites semble se faire très, très bizarrement !

  25. Aroua Ben Salah
    2 messages

    Aroua Ben Salah - Le 05 septembre 2012, 16:09

    @François-Olivier
    Allow gère les exceptions à l’interdiction.

    Disallow: /wp-content
    Allow: /wp-content/uploads

    => interdire l’accès au répertoire /wp-content/ sauf le sous répertoire /uploads/

  26. lereferenceur
    20 messages

    lereferenceur - Le 06 septembre 2012, 04:50

    Donc si je comprends bien les commentaires, Google sait qu’il y a une page parce qu’il y a un lien qui pointe vers elle mais ne l’indexe pas car il ne la lit pas a cause du robots.txt ?

    Mais il l’indexe quand même …

  27. nrenault
    1 message

    nrenault - Le 10 septembre 2012, 02:41

    Sincèrement, j’ai commencé à lire l’article en me disant : « je maitrise pas mal la gestion du robots.txt, je risque de pas y apprendre grand chose ». Finalement, de très bon conseils, et contrairement à ce que je pensais, j’ai appris quelques trucs bien utiles que je me suis empressé d’appliquer sur mon site.
    Merci !!

  28. Pierre
    1 message

    Pierre - Le 12 septembre 2012, 21:27

    Merci pour ces précisions sur le robots.txt, même si on peut se poser réellement la question de l’intérêt de ce fichier…
    Concernant le sitemap, il y a 2 écoles :
    - créer ce fameux fichier et le proposer au moteur pour bénéficier d’une indexation rapide quelque soit la structure du site.
    - ne pas générer de sitemap et attendre l’indexation de son site par les moteurs et ainsi valider la structure technique du site (puisque les moteurs ont réussi l’indexation).

  29. David Cohen @dwynot
    2 messages

    David Cohen @dwynot - Le 24 septembre 2012, 11:01

    Hello Daniel

    Merci pour tes éclaircissements
    Comme le fichier Sitemap est souvent aussi en .gz, je ne voie plus l’intéret de cette ligne
    Disallow: /*.gz

    David

  30. Cédric
    1 message

    Cédric - Le 18 février 2013, 11:01

    Bonjour Daniel,

    Merci beaucoup pour ton article. J’ai une installation WordPress et Google vient de me faire remarquer aujourd’hui qu’il ne trouve pas mon fichier robots.txt à la racine de mon nom de domaine. Et effectivement, il n’y en a pas, il n’y en a jamais eu d’ailleurs. Mais le fichier sitemap est bien présent lui (dans un sous répertoire « nomdedomaine.fr/blog »).

    J’en conclus qu’il faut que je rajouter le fichier robots.txt à la racine de mon site, est-ce bien cela ta recommandation ?

    Par ailleurs, j’ai la structure suivante :
    nomdedomaine.fr/blog
    nomdedomaine.fr/forum

    En quoi cela modifie-t-il le modèle du fichier robots.txt que tu proposais en fin de ton article ?

    Merci beaucoup pour ton éclairage.

  31. Daniel Roch
    727 messages

    Daniel Roch - Le 19 février 2013, 10:45

    @Cédric : pour le blog, cela ne change rien. Par contre il faudra tester avec le forum pour voir s’il n’y a pas d’incompatibilité.

  32. Elsa
    2 messages

    Elsa - Le 20 mars 2013, 08:40

    Bonjour,
    Est-ce que « Disallow: /*? » signifie que les pages du moteur de recherche avancé sur mon site ne seront pas visibles par Google ?
    Merci de m’éclairer à ce sujet parce qu’il me remonte plein d’erreurs 404 dans Google Webmaster Tool (uniquement des urls du moteur de recherche) :(
    Bonne journée !

  33. Daniel Roch
    727 messages

    Daniel Roch - Le 20 mars 2013, 14:14

    Cela signifiera que cela bloquera toutes les URL qui utilisent un ?, que ce soit votre moteur de recherche interne ou un autre type d’URL.

  34. Elsa
    2 messages

    Elsa - Le 20 mars 2013, 22:55

    Merci beaucoup pour votre explication !

  35. Aline
    1 message

    Aline - Le 03 mai 2013, 12:44

    Quelque chose de simple, mais tout de même à mentionner :
    le robots.txt décrit sera inefficace si les fichiers de WordPress se situent dans un sous-dossier, et c’est souvent le cas.
    Il faut donc rajouter /nomdudossier devant chaque adresse sur chaque ligne si les fichiers wordpress ne sont pas directement à la racine du site.

  36. Sébastien
    2 messages

    Sébastien - Le 01 août 2013, 11:01

    Salut
    Je suis assez perplexe sur l’utilisation du  » Disallow: /*?  »

    Avec cela, tu indiques à Google : « merci de ne passer sur aucune des pages avec un paramètre dans l’url »

    Bref, n’importe quelle url avec un paramètre de tracking qui se retrouverait dans un forum par exemple ne serait donc pas interprété et aucun PageRank passé… C’est dommage, d’autant plus qu’il n’y aucun risque de duplicate, en particulier si les canonical sont bien gérés.

    Bref, personnellement, je déconseille nettement l’utilisation cette ligne.

    De manière générale, j’utilise le robots.txt en dernier recours après avoir bien géré les noindex et les canonical… Et, au final, parfois, je n’ai rien à mettre dedans si ce n’est le sitemap ;)

  37. LIJE Creative
    8 messages

    LIJE Creative - Le 01 août 2013, 15:49

    Perso, j’utilise aussi le /*?
    Pour tout te dire, voici mon robots.txt de base pour WordPress que j’utilise presque tout le temps :

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?
    Disallow: /*.js$
    Disallow: /*.inc$

    User-agent: Googlebot
    Disallow: /*.css$
    Disallow: /*.gz$
    Disallow: /*.swf$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    Disallow: /*.pdf$
    Disallow: /*.xml$

    User-agent: Googlebot-Image
    Disallow:

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: Updownerbot
    Disallow: /

  38. Benoit
    20 messages

    Benoit - Le 01 août 2013, 15:51

    Bonjour Sébastien,

    Cela permet d’économiser (un peu) de crawl allocation, et pour les gros sites, c’est intéressant.

  39. Carine
    1 message

    Carine - Le 01 août 2013, 16:45

    Bonjour Daniel,

    Si j’ai bien compris la problématique soulevée par le commentaire de Sébastien, il faudrait que Google puisse crawler les URL avec paramètre pour laisser passer le jus, mais ne les indexe pas pour éviter le DC, c’est bien ça ?

    Si oui, je tente une réponse mais c’est à tester. La parade serait d’utiliser « Noindex: /*? » dans le robots-txt, au lieu du disallow habituel.

    La commande n’est apparemment pas documentée par Google, mais tu trouveras une longue démonstration sur le site WRI; ladite commande fait l’objet de la conclusion de l’article.

    http://www.webrankinfo.com/dossiers/indexation/crawl-respect-robots-txt

  40. Julie
    1 message

    Julie - Le 03 octobre 2013, 10:06

    Bonjour,
    Question bête : dans le cas d’un blog (monsite.fr/blog), il faut procéder de la même façon ou faire par exemple : Disallow: /blog/wp-login.php ?
    Merci !

  41. Daniel Roch
    727 messages

    Daniel Roch - Le 07 octobre 2013, 08:26

    Effectivement, le mieux est de rajouter /blog/ devant chaque ligne

  42. Constantin Ovidiu
    1 message

    Constantin Ovidiu - Le 12 décembre 2013, 10:10

    Daniel (vous n’êtes pas par hasard le frère de Jean ? ;)
    Tout d’abord, merci, merci pour votre blog !
    J’apprécie particulièrement votre façon de présenter, comme par ex. l’article ci-dessus, façon genèse.
    Avoir les connaissances dans un domaine c’est une chose, savoir les transmettre c’est tout un art,
    Et vous le faites très bien !
    Merci encore

  43. Brice Emry
    1 message

    Brice Emry - Le 06 janvier 2014, 00:37

    Bonsoir,
    Je un souci avec mon fichier robots.txt.Je suis inscrit au service de référencement de Attracta et ils ont inséré trois lignes dans mon fichier robots qui commence par:
    #Begin Attracta SEO Tools Sitemap.
    et se termine par:
    #End Attracta SEO Tools Sitemap. Do not remove
    Le problème c’est que ce fichier robots n’est pas reocnnu dans Google webmaster tools. Or, je voudrais utiliser votre code. Mais même en l’insérant dans ce fichier robots.txt, il ne sera toujours pas compatible.
    Avez un suggestion à me proposer?
    Merci.

  44. Daniel Roch
    727 messages

    Daniel Roch - Le 06 janvier 2014, 09:25

    Le mieux est de demander directement à Attracta pourquoi votre le robots.txt de votre WordPress n’est pas reconnu comme compatible.

  45. Damien
    1 message

    Damien - Le 24 février 2014, 10:47

    Salut Daniel,

    Le tuto est t’il encore d’actualité stp?

    Damien

  46. Daniel Roch
    727 messages

    Daniel Roch - Le 25 février 2014, 08:14

    Oui, il l’est toujours.

  47. Céline
    1 message

    Céline - Le 31 mai 2014, 22:21

    Bonjour Daniel,

    Question concernant les « category » de WordPress, faut-il les désindexer car on peut en effet considérer que ces pages créent une sorte de « duplicate content » des articles contenus dans chacune des catégorie ?? Est-il donc nécessaire d’ajouter ces lignes dans le fichier robots.txt :
    Disallow: /category/
    Noindex: /category/

  48. Daniel Roch
    727 messages

    Daniel Roch - Le 02 juin 2014, 19:16

    Les catégories permettent justement aux visiteurs et moteurs de recherche de trouver vos contenus. Il ne faut donc pas les désindexer, mais il faut s’assurer qu’elles n’affichent qu’un extrait des articles et pas la totalité.

» Commentez cet article !
(Merci de donner un vrai prénom)
(Ne sera jamais publié)
(Modèration subjective)
Html accepté <a> <i> <b> [codesyntax]CODE[/codesyntax]
» Prévisualisez votre message

© 2010-2012 SeoMix : WordPress & Référencement
Propulsé par WordPress et Daniel Roch. Logo créé par Willy-Bahuaud

Indispensable
WordPress
A propos de SeoMix
Mes servicesWordPress - Référencement
Suivez-nous !
  • 8908 abonnés
  • 197 articles
  • 4619 messages
Vous devriez lire
Seo et emarketing
Les amis
33df2391fc8fcee9b7da6f0ccda4c88b0000000000000000000