Accueil > Référencement naturel > Structure et maillage interne SEO > Pourquoi et comment utiliser Gephi en SEO ?

Pourquoi et comment utiliser Gephi en SEO ?

Publié le 19 janvier 2017 Structure et maillage interne SEO

En lisant cet article, vous allez très vite comprendre pourquoi l’utilisation d’un logiciel comme Gephi, qui n’a, à la base, pas été créé pour le SEO, peut vous être utile pour analyser votre site internet. Nous allons ici vous présenter des généralités sur Gephi, en commençant par la présentation du logiciel puis son utilisation dans le cadre d'un audit technique SEO.

Cet article est un premier jet. Un suivant arrivera très bientôt sur SeoMix et abordera en détails les opportunités offertes par ce logiciel. Et on vous sortira de jolis graphiques remplis de couleurs ! :)

Allez, c’est parti !

Qu'est ce que Gephi ?

Gephi est un puissant logiciel permettant d'analyser et de visualiser des données d’un site web.

Il est très souvent utilisé dans les domaines liés à l’algorithmie et aux statistiques. Il est notamment souvent choisi pour analyser des communautés et des influenceurs.

Dans une optique de référencement naturel, Gephi peut se montrer très précieux en ce qui concerne l’analyse de la structure d’un site. Et nous allons vous montrer comment dans la suite de cet article.

Information importante tout de même : Gephi est un logiciel Open Source gratuit qui est disponible sur Windows, Mac OS X et Linux.

Gephi-logo

Pourquoi utiliser Gephi ?

En référencement naturel, il existe plusieurs intérêts dans l’utilisation de Gephi. Pour citer quelques exemples, il permet de répondre aux questions suivantes :

  • Mon maillage interne transmet-il du poids aux pages importantes de mon site ? ;
  • Mes pages secondaires sont-elles réellement secondaires dans la structure de mon site ? ;
  • Est-ce que certaines de mes pages sont trop loin de l’accueil ? ;
  • Est-ce que je fais trop de liens vers des pages qui provoquent des erreurs 404, des contenus inutiles ou des redirections ? ;

De plus, si vous avez consulté notre page sur l’audit SEO vous devez certainement savoir qu’un audit SEO complet est composé de plusieurs analyses et notamment d’une analyse technique, d’une analyse des contenus et d’une analyse de la structure. Et bien pour chacune de ces analyses, vous allez pouvoir utiliser Gephi afin de faire ressortir des pages en erreur ou inutiles pour citer deux exemples.

Voici un aperçu des différentes opportunités que propose Gephi selon les éléments analysés :

Audit technique :

  • Les pages en erreur ou qui provoquent des redirections inutiles ;
  • Les liens inutiles dans le code source ;

Audit des contenus :

  • Les contenus dupliqués ;
  • Les contenus pauvres ou non qualitatifs ;

Audit de la structure :

  • Les pages populaires ;
  • La diffusion du pagerank en interne ;

Comment utiliser Gephi ?

Alors maintenant que nous avons listé les problématiques que l’on aimerait visualiser dans Gephi, il va falloir lancer le logiciel. Nous allons ici vous expliquer pas à pas comment créer un projet sur Gephi et comment importer les données de votre site. Et justement, quand on parle des données d’un site, la première étape va être de récupérer ces précieuses ! : )

Alors, avant de foncer tête baissée dans Gephi, asseyez-vous confortablement dans votre fauteuil, il va falloir crawler votre site ! (WTF, c’est quoi crawler ? ^^)

> Crawler un site = récupérer toutes les pages de votre site

Allons-y pour la récupération des données !

Récupérer les données du site

Comme expliqué ci-dessus, la première étape va être de préparer les données que nous importerons  par la suite dans Gephi. Vous allez donc devoir scanner le site à analyser avec un crawler comme screaming frog ou Xenu.

Pour télécharger les logiciels :

screaming frog
Screaming Frog vous permet de récupérer les données d'un site

Pour lancer le scan de votre site sur screaming frog, il vous suffit simplement de copier/coller l’url du site à analyser puis de cliquer sur « Start ».

Lorsque le crawl de votre site est terminé, il vous suffira d’exporter plusieurs fichiers :

  • Toutes les URL (internes et externes) ;
  • Tous les liens internes ;

Pour récupérer toutes les URL de votre site, vous devez exporter 2 fichiers :

  • Internal_all ;
  • External_all ;
export internal screaming frog
Exporter toutes les pages depuis Screaming Frog
export external screaming frog
Exporter les liens externes depuis Screaming Frog

Pour récupérer tous les liens internes vous devez exporter ce fichier :

  • All inlinks :  allez dans "Bulk Export" puis "All Inlinks" ;
export all inlinks
Exporter tous les liens internes depuis Screaming Frog

Cette fonctionnalité vous permet d’exporter tous les liens internes réalisés sur votre site. Voici une petite vidéo résumant les étapes pour récupérer ces trois fichiers avec Screaming Frog (désolé pour le son qui n'est pas top, on a fait ce qu'on a pu mais promis on aura des vidéos de meilleure qualité la prochaine fois) :

Et une seconde vidéo si vous avez utilisé Xenu :

Préparation des données dans Excel

Vous allez maintenant devoir importer toutes les données exportées dans Excel pour les retraiter et les nettoyer.

Toutes les pages du site

Pour importer vos données, rien de plus simple : une fois dans Excel, allez dans « Données > Fichier Texte » et sélectionnez votre fichier.

preparation données sur excel gephi
Importer les données dans Excel

Il faut ensuite nettoyer les données en supprimant toutes celles qui ne seront pas utiles. Par les informations pertinentes à conserver, nous vous conseillons :

  • L’URL / Address : vous devez renommer la colonne en « ID » ;
  • Le status code de la page, c’est-à-dire l'entête HTTP de l'URL (200, 404, 301...). Nous vous préconisons de retraiter les données de cette colonne. Pour cela, créer une nouvelle colonne dans Excel, faites un filtre sur la colonne "Status code" et associez des "1" à toutes les URL en 200 et des 0 à toutes les URL en erreur (404, 301, 302, 500). Ce traitement nous permettra de visualiser plus facilement les données ensuite dans Gephi ;
  • La balise Title : renommer la colonne « Label » ;
  • Le nombre de liens internes reçus par l’URL (Inlinks) ;

N’oubliez pas d’importer également les liens externes présents sur le site (external_all). Ajoutez-les à ce fichier. Enregistrez ensuite ce fichier au format .csv et nommez-le nodes.csv

Voici un résumé de la préparation de ce fichier en vidéo :

Tous les liens internes

Pour importer les données du fichier "All Inlinks" dans Excel, refaites la même opération que pour le premier fichier. Vous devez ici conserver les informations suivantes :

  • La source ;
  • La destination : renommez la colonne en « Target » ;
  • L'ancre de texte : renommez la colonne en « Label » ;

Vous pouvez ensuite enregistrer ce fichier au format .csv et le nommer edges.csv.

Voici un résumé de la préparation de ce second fichier en vidéo :

Importer les données dans Gephi

Avant toute chose, vous allez devoir télécharger et installer Gephi sur votre ordinateur. Pour cela rendez-vous ici pour le télécharger : https://gephi.org/. Une fois téléchargé, vous pourrez installer le logiciel.

Une fois installé et démarré, vous allez devoir importer vos deux fichiers .csv dans Gephi. Pour cela, voici ce que vous devez faire :

  • Ouvrez le logiciel Gephi ;
  • Créer un nouveau projet et enregistrez-le ;

Importer le fichier nodes.csv

Voici ce que vous devez faire pour importer ce fichier :

  • Allez dans l'onglet « Laboratoire de données », cliquez sur « Importer feuille de calcul » puis sélectionnez votre fichier nodes.csv ;
  • Sélectionnez « En tant que table > Table des nœuds » ;
  • Vérifiez que vos données dans la colonne « Label » s'affichent bien (sinon changez la liste déroulante d'encodage) ;
  • Dans le nouveau menu qui apparaît, «label » et « Id » sont reconnus automatiquement ;
  • Pour les autres données :
    • Choisissez le format de données. Dans notre cas, "Status code" et "Links In" sont des "integer" ;
    • Cliquez enfin sur « Terminer » ;
importer données dans Gephi
Importer les données dans Gephi

Importer le fichier edges.csv

Nous venons d'importer la liste des contenus du site. Maintenant, il faut importer les liens entre ces contenus.

Voici ce que vous devez faire pour importer ce fichier :

  • Cliquez de nouveau sur « Importer feuille de calcul » et répétez l'opération sur le fichier edges.csv, excepté que vous sélectionnerez « En tant que table > Table des liens » cette fois-ci ;
  • Cliquez sur « Terminer » ;

Une fois vos données importées, vous devriez vous retrouver avec un graphique comme cela :

visualisation gephi
Le rendu initial de vos données avec Gephi

Résumé vidéo de l'importation des deux fichiers .csv dans Gephi :

Améliorer la lisibilité de ses données dans Gephi

Vous vous rendez bien compte que le graphique est actuellement illisible.

Nous allons donc maintenant rendre ce graphique plus compréhensible de manière à pouvoir en ressortir des premières analyses. Nous allons ici vous proposer deux analyses : tout d'abord, nous allons identifier et valoriser les pages les plus populaires en interne. Dans un second temps, l'objectif sera de visualiser la santé du site de manière graphique en représentant de deux couleurs différentes les pages qui sont problématiques et celles qui ne le sont pas.

Donner du poids aux pages importantes

Pour cela, on va d’abord donner du poids à chaque page selon le nombre de liens internes qu’elle reçoit. Gephi nous propose cette option en allant en haut à gauche dans « Aspect ».

Suivez ensuite toutes ces étapes :

  • En haut à gauche, un bloc « Nœuds / Liens » est disponible ;
  • Cliquez sur « Nœuds > Attributs » ;
  • Sélectionnez le symbole « Taille » ;
  • Puis dans la liste déroulante choisissez « Degré entrant » ;
  • Choisissez une taille minimum à 5 et une valeur plus élevée pour la seconde, par exemple 70, puis cliquez sur « Appliquer » ;

Nous avons donné du poids à chaque page selon le nombre de liens internes qu’elle possédait.

donner du poids aux pages sur Gephi
Donner du poids aux pages dans Gephi

Visualiser les problèmes de santé du site

La seconde étape est de mettre en valeur chaque contenu selon sa qualité (est-ce une page en erreur ou non ?). Pour cela, suivez les étapes suivantes :

  • En haut à gauche, un bloc « Nœuds / Liens » est disponible ;
  • Cliquez sur « Nœuds > Attributs » ;
  • Sélectionnez le symbole « Couleur » ;
  • Puis dans la liste déroulante choisissez « Status » ;
  • Choisissez « rouge » pour les pages en erreur (valeur = 0) et « bleu » pour les pages fonctionnelles (valeur 1) ;
colorer les pages dans gephi
Colorer les pages selon leur en-tête HTTP

Vous vous rendez bien compte ici que le graphique est difficilement lisible. Pour donner un peu d’espace à toutes ces pages, nous allons utiliser les spatialisations de Gephi. Une spatialisation est un algorithme qui détermine si oui ou non vos pages sont liées entre elles. Si elles sont liées, les deux ronds vont se rapprocher et si elles ne le sont pas, les deux ronds vont s’éloigner. Cela vous permettra ainsi de connaitre les pages de votre site fortement liées et surtout de savoir si cela est logique. ;)

Pour mettre en place cette spatialisation, allez dans le bloc "spatialisation" en bas à gauche et suivez le paramétrage suivant :

  • Sélectionnez « Force Atlas 2 » ;
  • Paramétrez cette spatialisation comme ceci ;
parametrage force atlas 2
Paramétrage de la spatialisation Force Atlas 2
  • En fonction du rendu, n’hésitez pas à modifier certains chiffres notamment :
    • L’échelle (plus la valeur est élevée, plus le graphe est clairsemé) ;
    • La tolérance (moins de 1 pour améliorer la précision) ;
    • L’influence du poids des liens ;

Vous devriez alors avoir un graphique un peu plus lisible et plus facile à analyser !

graphique gephi
Visualisation des pages du site analysé selon leur poids en interne et leur en-tête HTTP

Si vous souhaitez savoir quel rond correspond à quelle page, procédez comme suit :

  • Sélectionnez un rond, faites un clic droit pour retrouver dans le tableau de données la ligne correspondante ;
  • Vous pouvez aussi faire l’inverse, à savoir faire un clic droit sur une URL dans le tableau de données pour afficher la page dans la vue d'ensemble ;

Voici la vidéo résumant étape par étape le fait de colorer les pages et de leur donner du poids :

Cet article est le premier d'une petite série : en effet, nous vous avons présenté ici les bases pour crawler un site et importer ses données dans Gephi puis en faire une simple analyse. Nous allons rapidement vous préparer de nouveaux articles qui aborderont d'autres fonctionnalités et utilisations de Gephi ! Alors, tenez-vous informés ! :)

N'hésitez pas à nous poser toutes vos questions en laissant un commentaire !

Axel Janvier Directeur de l'agence & Associé

Directeur de l'agence SeoMix, Axel pilote la stratégie de l'entreprise et accompagne les collaborateurs au quotidien. +12 ans d'expérience dans le Search Marketing (SEO, SEA) et sur WordPress.

13 Commentaires

Fabien Le 19 janvier 2017 à 9h00

Bonjour,
Bon tuto étape par étape c'est très bien détaillé, bravo.
Par contre, plutôt que de compter les liens et d'utiliser cette donnée pour donner une taille différente aux pages, vous pourriez utiliser le PageRank interne que Gephi peut calculer...
Aussi, votre graph présente beaucoup de pages et donc encore plus de liens et ce n'est pas très lisible en l'état. Il serait plus lisible si vous n'affichiez plus les liens, vous ne verriez que les pages plus ou moins grande.
Eventuel, si vous souhaitez conserver les liens vous pouvez activer le mode linlog mais cela impose de redéfinir la taille des pages en fonction du PageRank.
L'intérêt principal de Gephi est son utilisation pour des gros sites, cependant, dès que le nombre de pages et surtout le nombre de liens commencent à être de plusieurs milliers, il est de plus en plus difficile de rendre le graph lisible. Si vous avez des solutions, astuces pour traiter des gros volumes de pages ça serait pas mal.

Deborah Le 19 janvier 2017 à 14h31

Bonjour,

Ce tuto est pas mal pour du one shot, par contre cela risque d'être chronophage si on s'en sert régulièrement sur des projets de restructuration du maillage.

Dans ce cas, il vaut mieux utiliser un outil comme cocon.se qui fait tres bien le job et qui est abordable financièrement.

Deborah

Thomas BARBERA Le 19 janvier 2017 à 15h24

Bonjour,

Quels sont les avantages par rapport à un crawler comme Botify ou Oncrawl qui fait tous le travail ?

    Axel Janvier Le 24 janvier 2017 à 9h46

    Bonjour Thomas,
    Botify et OnCrawl n'ont pas tout à fait le même objectif que Gephi.Ce qui est surtout intéressant dans Gephi, c'est de pouvoir analyser le maillage interne, la structure du site ainsi que la présence de silos. Dans un prochain article, nous détaillerons comment analyser la présence de silos sur Gephi. Vous pourrez ainsi constater sa valeur ajoutée ! ;)
    Gephi est aussi gratuit.

    Axel

Vincent Le 17 février 2017 à 12h39

Hello,
J'ai essayé avec votre méthode mais Gephi me sort lors de l'import de edges.csv que "la table des liens nécessite les colonnes 'Source' et 'Target' contenant les ID des noeuds" alors qu'elle est bien disponible...vous avez déjà eu le problème ?

    Axel Janvier Le 17 février 2017 à 13h40

    Hello Vincent,
    Pour t'aider efficacement, envoie moi ton fichier par mail si tu veux et je vais regarder le problème ! :)
    Axel

jambonbuzz Le 17 février 2017 à 16h35

J'ai fini par trouvé : le nouveau Excel encode l'UTF avec BOM, il faut passer par notepad++ et forcer un encodage "sans BOM" (le truc évident...)

Morgan Le 24 avril 2019 à 15h51

Bonjour,

Merci pour le tuto !
Cependant, je rencontre un problème lors de cette phase-ci :

En haut à gauche, un bloc « Nœuds / Liens » est disponible ;
Cliquez sur « Nœuds > Attributs » ;
Sélectionnez le symbole « Couleur » ;
Puis dans la liste déroulante choisissez « Status » ;

Je n'ai pas accès à l'onglet "attributs", uniquement "partition" et "classement". Est-ce un problème de configuration?

Cordialement,
Morgan

    Daniel Roch Le 25 avril 2019 à 7h13

    Il est fort possible que vos données se soient mal importées. Refaites un essai.
    Vérifiez aussi que vous avez une version récente de Gephi.

Julien Le 03 juillet 2019 à 15h06

Merci pour ce tuto.
Il a l'air simple en apparence mais déjà le coup des BOM m'a pris quelques heures avant de trouver.
Et J'ai exactement le même problème que Morgan. Même en réimportant ça ne fonctionne pas.
On peut faire sans ça parce que les erreurs en générale on en a pas beaucoup ou alors il y avait un très sérieux besoin d'audit haha.
J'ai la version la plus récente de Gephi mais par contre je suis sur MAC. C'est peut-être le problème...

Sinon j'adore vos livres, ils sont très bien. Je les ai tous acheté :)

    Daniel Roch Le 04 juillet 2019 à 8h33

    Avez-vous fait un essai avec un PC pour l'encodage ?

jonathan Le 26 février 2020 à 14h17

Bonjour, super tuto merci bcp. Dans l'export du doc "internal all" ne devrions nous pas garder uniquement les "content" en "text/html; charset=UTF-8" ?

    Daniel Roch Le 26 février 2020 à 14h24

    Tout dépend de ce que l'on souhaites visualiser dans Gephi : si on veut afficher la structure des contenus HTML, oui on peut ne garder que ce type de contenu.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *