Google et indexation de contenusGoogle évolue rapidement pour afficher les meilleurs résultats. Et pour cela, il doit indexer le mieux possible nos sites.

Comment Google indexe t-il nos contenus, et quels sont les freins au crawling ? Matt Cutts nous répond.

(article traduit de l’anglais – merci à Rand Fishkin pour l’autorisation)

[début de l’article original]

Eric Enge, de Stone Temple, a publié une interview de Matt Cutts (le « chef anti spam et contenu dupliqué » de Google). Je pense que toute la communauté SEO sera d’accord sur le fait que le temps passé par Matt lors de ce type d’interviews est phénoménal, et que nous ne pouvons qu’espérer avoir l’occasion de le revoir dans le futur.

Mieux comprendre les points de vu de Google, leur technologie et leurs buts ne peut qu’améliorer le travail des créateurs de sites Internet et des chargés de webmarketing. L’interview en lui-même vaut le détour, mais un des lecteurs de SeoMoz m’a fait remarquer par email qu’il n’avait pas pu le consulter en entier. Nous allons donc décrire les principaux points énoncés par Matt avec des graphiques. J’y ais aussi inclut mes propres interprétations ainsi qu’un peu de fun. Seules les textes entre guillemets sont des citations directes de Matt Cutts, donc gardez en tête que c’est ma vision de ses propos.

L’indexation, par Google

La limite d’indexation

Il n’y a pas de limite d’indexation, mais l’indexation a des limites

Indexation des contenus par Google

De nombreux critères sont utilisés pour savoir quoi indexer dans Google

Duplicate content

Le contenu dupliqué peut bloquer votre indexation

Contenu dupliqué et indexation

Un contenu dupliqué nuit à l’indexation

Impact du pagerank

Le pagerank influe t-il sur l’indexation ?

Pagerank et indexation

Le pagerank est un critère important pour l’indexation des contenus par Google

Indexation et affiliation

Les liens des affiliés sont-ils pris en compte ?

Affiliation et pagerank

Les liens d’affiliation ne transmettent que rarement le pagerank

Redirections 301 et 302

Les redirections 301 transfèrent une partie seulement de la popularité

Les redirections 301 transmettent une partie du pagerank, et les 302 n’en transmettent pas du tout

Qualité du contenu

Les pages pauvres en contenu ou dupliquées réduiront votre indexation

Qualité de contenu et indexation

Un contenu unique est vital pour l’indexation d’un site

Navigation multiple et PageRank Sculpting sont des problèmes épineux…

Pagerank sculpting

Le pagerank sculpting ne sert à rien : pensez à vos visiteurs

Des avis sur l’indexation de Google

Personnellement, j’ai beaucoup apprécié comment Eric à poussé Matt à expliquer des scénarios qui nécessitent d’afficher une navigation ou un contenu différent entre l’utilisateur et moteur de recherche. Cependant, je comprends Matt Cutts qui doit prendre position pour que ce qu’il dise soit vrai des 95% des cas, sans créer de problèmes chez ceux qui tenteraient d’appliquer sur leur site une méthode qui ne leur convient pas.

Un autre élément m’a fait bondir :

Matt Cutts : (au sujet des liens dans les publicités) notre point de vu n’a pas changé sur ce point, et nous devrions d’ailleurs donner des possibilités supplémentaires de faire un spam report dans les mois à venir. Nous avons de nouvelles technologies qui seront bientôt en ligne pour combattre ce problème, et nous devrions mettre aussi en place un feedback pour tous les liens de type spam.

Cela s’annonce bien : un des grandes frustrations du monde SEO est de percevoir ses concurrents comme étant surclassés grâce à des techniques black hat, et qui doivent faire de même pour rester dans la compétition. Mettre un terme à cette pratique ou faire sentir aux SEO que Google prend à bras le corps le problème mettra cependant longtemps à se mettre en place.

Ma dernière recommandation est de vérifier les 29 points clés d’Eric lors de l’interview de Matt Cutts (voir sources), qui résument pas mal d’informations et de désinformations qui circulent sur la manière dont Google indexe le contenu.

[fin de l’article d’origine]

L’article de SeoMoz est plutôt bon, mais je ne suis pas forcément d’accord avec tout ce qui est dit.

Déjà, j’apprécie assez moyennement la relation entre « technique black hat » et « mauvaise technique ». Le SEO black hat, c’est avant tout savoir fouiner et automatiser une partie des tâches. Vous aurez ainsi d’excellents référenceurs black hat, et de très mauvais.

En ce qui concerne l’affiliation, je vois mal comment Google pourra réussir à détecter les liens d’affiliation. Parfois, l’url n’est même pas codée via la plateforme et ressemble fortement à un lien traditionnel (cookie contenu dans une image par exemple). Idem dans le cas de la vente d’espace publicitaire. Donc je suis très prudent sur le fait que le méchant Google va venir taper sur les doigts des webmasters qui vendent des espaces publicitaires ou de l’affiliation sans la balise nofollow.

Je confirme ce qui est dit sur le frein provoqué par le contenu dupliqué sur un site. Par contre, je ne suis pas trop d’accord sur l’importance du pagerank dans l’indexation. Certes, les forts pageranks seront crawlés plus souvent, mais les petits peuvent l’être tout autant avec du contenu renouvelé fréquemment et quelques backlinks bien placés.

A mon avis, la structure du site et le contenu dupliqués sont les seuls vrais freins à l’indexation auxquels il faut rajouter des éléments techniques qui peuvent se retourner contre un site, comme le robots.txt, les redirections ou les balise meta index/noindex.

Je confirme aussi que les redirections 301 perdent une partie du pagerank. Lisez d’ailleurs le très bon article d’Axe-Net sur les redirections 301. Lisez également mon article sur la transmission du pagerank.

N’hésitez pas à me/le contredire en donnant votre avis. ;)

Sources sur l’indexation de contenus