Comment Google gère l’indexation des contenus?

Publié le 29 septembre 2010 Optimisation technique SEO

Google et indexation de contenusGoogle évolue rapidement pour afficher les meilleurs résultats. Et pour cela, il doit indexer le mieux possible nos sites.

Comment Google indexe t-il nos contenus, et quels sont les freins au crawling ? Matt Cutts nous répond.

(article traduit de l’anglais – merci à Rand Fishkin pour l’autorisation)

[début de l’article original]

Eric Enge, de Stone Temple, a publié une interview de Matt Cutts (le « chef anti spam et contenu dupliqué » de Google). Je pense que toute la communauté SEO sera d’accord sur le fait que le temps passé par Matt lors de ce type d’interviews est phénoménal, et que nous ne pouvons qu’espérer avoir l’occasion de le revoir dans le futur.

Mieux comprendre les points de vu de Google, leur technologie et leurs buts ne peut qu’améliorer le travail des créateurs de sites Internet et des chargés de webmarketing. L’interview en lui-même vaut le détour, mais un des lecteurs de SeoMoz m’a fait remarquer par email qu’il n’avait pas pu le consulter en entier. Nous allons donc décrire les principaux points énoncés par Matt avec des graphiques. J’y ais aussi inclut mes propres interprétations ainsi qu’un peu de fun. Seules les textes entre guillemets sont des citations directes de Matt Cutts, donc gardez en tête que c’est ma vision de ses propos.

L’indexation, par Google

La limite d’indexation

Il n’y a pas de limite d’indexation, mais l’indexation a des limites

Indexation des contenus par Google

De nombreux critères sont utilisés pour savoir quoi indexer dans Google

Duplicate content

Le contenu dupliqué peut bloquer votre indexation

Contenu dupliqué et indexation

Un contenu dupliqué nuit à l’indexation

Impact du pagerank

Le pagerank influe t-il sur l’indexation ?

Pagerank et indexation

Le pagerank est un critère important pour l’indexation des contenus par Google

Indexation et affiliation

Les liens des affiliés sont-ils pris en compte ?

Affiliation et pagerank

Les liens d’affiliation ne transmettent que rarement le pagerank

Redirections 301 et 302

Les redirections 301 transfèrent une partie seulement de la popularité

Redirections et PageRank

Les redirections 301 transmettent une partie du pagerank, et les 302 n’en transmettent pas du tout

Qualité du contenu

Les pages pauvres en contenu ou dupliquées réduiront votre indexation

Qualité de contenu et indexation

Un contenu unique est vital pour l’indexation d’un site

Navigation multiple et PageRank Sculpting sont des problèmes épineux…

Pagerank sculpting

Le pagerank sculpting ne sert à rien : pensez à vos visiteurs

Des avis sur l’indexation de Google

Personnellement, j’ai beaucoup apprécié comment Eric à poussé Matt à expliquer des scénarios qui nécessitent d’afficher une navigation ou un contenu différent entre l’utilisateur et moteur de recherche. Cependant, je comprends Matt Cutts qui doit prendre position pour que ce qu’il dise soit vrai des 95% des cas, sans créer de problèmes chez ceux qui tenteraient d’appliquer sur leur site une méthode qui ne leur convient pas.

Un autre élément m’a fait bondir :

Matt Cutts : (au sujet des liens dans les publicités) notre point de vu n’a pas changé sur ce point, et nous devrions d’ailleurs donner des possibilités supplémentaires de faire un spam report dans les mois à venir. Nous avons de nouvelles technologies qui seront bientôt en ligne pour combattre ce problème, et nous devrions mettre aussi en place un feedback pour tous les liens de type spam.

Cela s’annonce bien : un des grandes frustrations du monde SEO est de percevoir ses concurrents comme étant surclassés grâce à des techniques black hat, et qui doivent faire de même pour rester dans la compétition. Mettre un terme à cette pratique ou faire sentir aux SEO que Google prend à bras le corps le problème mettra cependant longtemps à se mettre en place.

Ma dernière recommandation est de vérifier les 29 points clés d’Eric lors de l’interview de Matt Cutts (voir sources), qui résument pas mal d’informations et de désinformations qui circulent sur la manière dont Google indexe le contenu.

[fin de l’article d’origine]

L’article de SeoMoz est plutôt bon, mais je ne suis pas forcément d’accord avec tout ce qui est dit.

Déjà, j’apprécie assez moyennement la relation entre « technique black hat » et « mauvaise technique ». Le SEO black hat, c’est avant tout savoir fouiner et automatiser une partie des tâches. Vous aurez ainsi d’excellents référenceurs black hat, et de très mauvais.

En ce qui concerne l’affiliation, je vois mal comment Google pourra réussir à détecter les liens d’affiliation. Parfois, l’url n’est même pas codée via la plateforme et ressemble fortement à un lien traditionnel (cookie contenu dans une image par exemple). Idem dans le cas de la vente d’espace publicitaire. Donc je suis très prudent sur le fait que le méchant Google va venir taper sur les doigts des webmasters qui vendent des espaces publicitaires ou de l’affiliation sans la balise nofollow.

Je confirme ce qui est dit sur le frein provoqué par le contenu dupliqué sur un site. Par contre, je ne suis pas trop d’accord sur l’importance du pagerank dans l’indexation. Certes, les forts pageranks seront crawlés plus souvent, mais les petits peuvent l’être tout autant avec du contenu renouvelé fréquemment et quelques backlinks bien placés.

A mon avis, la structure du site et le contenu dupliqués sont les seuls vrais freins à l’indexation auxquels il faut rajouter des éléments techniques qui peuvent se retourner contre un site, comme le robots.txt, les redirections ou les balise meta index/noindex.

Je confirme aussi que les redirections 301 perdent une partie du pagerank. Lisez d’ailleurs le très bon article d’Axe-Net sur les redirections 301. Lisez également mon article sur la transmission du pagerank.

N’hésitez pas à me/le contredire en donnant votre avis. ;)

Sources sur l’indexation de contenus

Daniel Roch

Fondateur, conférencier, auteur, consultant et expert SEO WordPress

17 Commentaires

Laurent Colas Le 29 septembre 2010 à 10h25
La solution à mon problème se trouve sans doute dans cette page.
Non pas des contenus dupliquées mais des url diffèrents pour arriver à la même page, ceci est du aux divers outils et composants de mon site sous joomla.
Je vais m'y attarder
Merci
LaurentB Le 29 septembre 2010 à 11h18
Parmi les audits que je réalise, l'architecture du site est le plus souvent coupable d'empêcher une bonne indexation. C'est une perte de potentiel de visibilité énorme lorsqu'une majorité du site n'est même pas indexée.
Le dup content est tout de même moins problématique de nos jours. Dans sa version interne en tout cas.
En tout cas, bien ton billet ;)
Matthieu Le 29 septembre 2010 à 12h13
Merci, toutes ces infos sont très utiles, ont va les utiliser à bon escient pour notre site de e-commerce
Ehumeurs Le 29 septembre 2010 à 15h13
Merci pour cette traduction. J'avais déjà remarqué plusieurs éléments comme le PR de la barre verte étant un indicateur de la non indexation d'une page. A partir de cet élément, on peut ne chercher les causes.
Arpès, il est clair que Matt Cutts doit prendre position et s'y tenir. C'est pourquoi, parfois, ces réponses ne sont pas toujours limpides ;)
Denis Le 29 septembre 2010 à 20h24
J'ai pas tout compris. Mais je préfère les entrailles de dinde... c'est plus sûr ! ;+)
Samuel Hounkpe Le 30 septembre 2010 à 8h10
Le contenu dupliqué reste un mystère pour moi, j'ai un site de paroles de chansons qui semble en souffrir, mais certains de mes concurrents n'en souffrent aucunement, une histoire de pagerank? Mon site est pourtant PR4!
Daniel Roch Le 30 septembre 2010 à 9h07
Le cas des sites de chansons doit être l'un des pires cas de duplicate content sur le web. Ce qu'il faut, c'est générer le plus de backlinks de qualité pour démontrer à Google la pertinence du contenu face aux autres sites du même genre. Il faut surtout trouver des backlinks sur les pages profondes (plusieurs pour chaque chanson est alors l'idéal).
Keeg ( e-concept ) Le 30 septembre 2010 à 9h58
"Les 302 n'en transmettent pas du tout de pagerank (de jus, de positionnement)"

Ouais, c'est ce qu'on nous fait croire, parce que dans certains cas... ;)
Rudy SOM Le 30 septembre 2010 à 10h23
Hum...
Je suis très perplexe face au fait que les liens d'affiliation ( sous la forme d'un lien traditionnel ) ne transmettent pas ou moins de jus qu'un lien classique...
Labidi Kamel SEO Tunisie Le 30 septembre 2010 à 10h25
Le contenu dupliqué influence négativement le positionnement du site, depuis 4 semaines j'ai référencé un site dont les pages sont dupliqués et le client n'était pas convaincu de changer le contenu des pages, j'ai effectué un travail énorme mais aucune résultats positive....
Benoit Le 30 septembre 2010 à 10h28
Article intéréssant.
Je vois souvent écrit que les problèmes d'indexations peuvent venir d'une mauvaise structure de site, d'une mauvaise architecture de pages... mais concrètement, c'est quoi une bonne, et une mauvaise structure ? Y'a-t-il des articles sur le sujet ? (articles un peu poussés si possible... pas juste conseiller de mettre du h1, mettre des alt, ou avoir un pertinent... )
Kmenslow Le 30 septembre 2010 à 10h43
La présentation par l'image est très sympa :)

Sinon, il n'y a pas grand chose à se mettre sous la dent. Ce n'est que de la logique : Contenu dupliqué, peu de contenu, effet modéré du PR ... etc.

Depuis que je me passionne pour le référencement (4 ans environs) et que je lis les interventions de Matt Cutts, j'en arrive toujours à la même conclusion pour bien référencer un site (en mettant de coté les techniques BH) :

Du coté de la rédaction
- Création d'articles uniques quotidiennement
- Articles apportant un plus par rapport à la concurrence
- Articles avec beaucoup de contenu
- ...etc.

Du coté de la technique
- Structure optimisée pour les liens internes
- Structure logique pour la navigation de l'internaute
- ... etc.

En suivant ces quelques règles, cela marchera bien pour le site.

Je trouve cela très simple le SEO en théorie mais dans la pratique, c'est super dur car cela demande beaucoup de veille, un gros travail de rédaction et une ténacité à toute épreuve pour ne pas ralentir la production. Personnellement, je n'y arrive pas :(

D'ailleurs cela me fait penser que je dois faire un article sur ce sujet ce matin.
VOLUMIUM Le 30 septembre 2010 à 11h35
Joli dessins, nous retwittons -)) Bravo pour cet article pertinent. En début de semaine, VOLUMIUM publiera un nouvel article sur les redirections 302 !!
A lire sur volumium.fr donc !!
Jérémy Broutin Le 30 septembre 2010 à 12h34
Merci pour cet article. Néanmoins rien de bien neuf, mais des confirmations qui font plaisir à entendre: faites les choses proprement et dans les règles (grosso modo), votre SEO n'en ressortira que meilleur !
Anthony Le 30 septembre 2010 à 14h50
Excellent article, Matt explicite l'ensemble des éléments pour les non-initiés, mais reste vague sur les sujets qui nous intéressent d'avantage comme une partie de l'algo qui répertorie l'importance des éléments participent à la vitesse d'indexation d'un nouveau site...

Toutefois l'article est comme d'habitude, d'une qualité remarquable.
Philippe Le 01 octobre 2010 à 12h17
« A mon avis, la structure du site et le contenu dupliqués sont les seuls vrais freins à l'indexation »
Ce sont les 1ers freins mais le code en est un aussi (sans parler de contenu en Flash)
Le Juge SEO Le 05 octobre 2010 à 22h10
Je restes comme toujours assez circonspect avec une partie de ce que dit Matt Cutts mais bon dans l'ensemble on va dire que j'adhere plutot avec ce qui est dit

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *