Lors du SeoCamp 2019, nous avons eu l’occasion de proposer une conférence sur l’utilisation avancée de Gephi pour améliorer le SEO. Avec Daniel, nous avons passé 2 jours sur cet évènement (28 et 29 mars 2019) d’une grande qualité et durant lesquels nous avons assisté à des conférences très passionnantes comme celle de Raphaël Doucet que vous pouvez visionner ici. Voici donc un résumé de cette conférence que vous pouvez aussi revoir en vidéo à la fin de l’article

Gephi, c’est quoi ?

Gephi est un logiciel Open Source qui vous permettra d’analyser et de visualiser des données. Basé sur Java, ce logiciel est surtout utilisé pour l’algorithmie et les statistiques, mais il est aussi très utile quand on souhaite optimiser son référencement naturel. Il permet de d’utiliser de nombreux algorithmes, dont le fameux Pagerank, et de cartographier et classer des données.

Logo Gephi

Il vous permettra en effet de visualiser et d’analyser la structure (ou l’arborescence) de votre site. D’autres outils comme cocon.se ou Screaming Frog vous permettent également de visualiser votre structure mais Gephi possède l’avantage de pouvoir importer les données que l’on souhaite et donc de personnaliser l’analyse. A partir de là, vous remarquerez dans la suite de cet article que l’on peut bien s’amuser  !

Attention cependant: Gephi est aussi un logiciel instable et difficile à prendre en main. Pensez à bien sauvegarder votre travail au fur et à mesure.

Pourquoi utiliser Gephi en SEO ?

En référencement, de nombreuses données doivent être traitées et analysées pour pouvoir prendre des décisions: URL, balises title, liens internes, liens externes et bien d’autres encore mais il est souvent compliqué de les visualiser et d’en extraire des préconisations. Le logiciel Gephi va donc vous faciliter la vie: il va vous permettre d’importer n’importe quelles types de données et de les visualiser graphiquement.

Que peut-on visualiser en référencement naturel ?

Sur Gephi, avec quelques analyses basiques, vous pouvez visualiser et modéliser :

  • La structure de votre et son maillage interne
  • Les problèmes techniques SEO :
    • erreurs 404
    • erreurs 500
    • pages dupliquées
    • mauvaises redirections internes
    • génération infinie d’URL

Toutes ces représentations graphiques peuvent vous aider à mieux agir sur votre site. Le vrai intérêt de Gephi en SEO, c’est :

  • l’utilisation simples de certains algorithmes (notamment le PageRank et la Complémentarité)
  • de filtrer en temps réel vos données
  • de pouvoir interagir en temps réel (par exemple, supprimer une URL ou un lien pour voir l’impact que cela aurait)

Comment visualiser son site dans Gephi ?

Voici un petit tutoriel Gephi pour comprendre son fonctionnement.
Deux logiciels sont nécessaires pour récupérer et nettoyer vos données. Tout d’abord vous allez avoir besoin d’un crawler comme screaming frog afin de récupérer les pages d’un site les informations associées. Vous aurez également besoin d’un tableur comme Excel pour importer les données exportées depuis Screaming Frog et pour les nettoyer.

Avant de pouvoir vous amuser avec Gephi, vous allez devoir récupérer plusieurs éléments :

  • Les URL de votre site avec Screaming Frog (le fichier All internal) ;
  • L’ensemble des liens internes (toujours avec Screaming Frog, le fichier All Inlinks) ;

Ensuite, vous allez devoir nettoyer grâce à Excel vos 2 exports précédents.

Préparer ses données dans Excel

1. Pour ce premier import, sur Excel, dans la liste des URL de votre site, conservez seulement :

  • L’URL (renommer la colonne en « ID »)
  • Le status code de la page, c’est-à-dire l’entête HTTP de l’URL (200, 404, 301…)
  • Le nombre de liens internes reçus par l’URL
  • D’autres données selon vos besoins d’analyse (liens externes, passage Googlebot, etc..)

Enregistrez le fichier en .csv (le nommer nodes.csv).

2. Toujours sur Excel, dans l’export vous permettant de récupérer tous les liens internes, veuillez conserver seulement :

  • La source
  • La destination (renommer la colonne en « Target »)
  • Ancre de texte (renommer la colonne en « Label »)

Enregistrez ensuite le fichier en .csv (le nommer edges.csv).

Importer ses données dans Gephi

Importer les URL > Fichier nodes.csv

  • Créer un nouveau projet et enregistrez-le
  • Allez dans l’onglet « Laboratoire de données », cliquez sur « Importer feuille de calcul » et sélectionnez votre fichier nodes.csv
  • Vérifiez que vos données dans la colonne « Label » s’affichent bien (sinon changez l’encodage dans la liste déroulante )
  • Sélectionnez « En tant que table > Table des nœuds »

Importer les liens internes > Fichier edges.csv

  • Dans le laboratoire de données, cliquez de nouveau sur « Importer feuille de calcul » et répétez l’opération sur le fichier edges.csv
  • Sélectionnez « En tant que table > Table des liens » cette fois-ci ;
  • Spécifiez vos paramètres d’import selon vos données ;
  • Cliquez sur « Terminer » puis quand vous arrivez sur le rapport d’import, sélectionnez bien « ajouter à l’espace de travail existant » (de plus, ne cochez surtout pas « créer les nœuds manquants ») ;
  • Cliquez sur « OK »

Vos données sont maintenant importées.

A cette étape vous pouvez améliorer la lisibilité de vos données dans Gephi. Pour cela, nous vous conseillons de lire notre tutoriel sur Gephi et notamment le point 4 sur la lisibilité des données.

Contactez-nous

Analyses avancées avec Gephi

Sur Gephi, les possibilités avancées sont nombreuses ! Pour en citer quelques-unes, après avoir préparé et importé vos données dans Gephi, vous pourriez visualiser :

  • La diffusion du PageRank interne
  • L’impact de l’emplacement des liens sur les différentes pages
  • Une analyse poussée de vos backlinks (TF, CF, ancres optimisées, etc.)
  • Le profil de liens d’un secteur d’activité et de vos concurrents

Vous trouverez ci-dessous deux exemples d’analyses avancées réalisés par l’équipe SeoMix.

Analyse de la diffusion du PageRank interne

Les objectifs de cette visualisation étaient les suivants :

  • Visualiser les pages qui reçoivent des liens externes
  • Recalculer le PageRank sur ces pages

Sur le graphique :

  • Ronds bleus = pages internes
  • Ronds jaunes = liens externes
  • Ronds verts = liens qui sortent du site

Sur ce graphique, on constate rapidement qu’une seule page reçoit énormément de PageRank : c’est la page interne. On constate aussi que quelques pages internes recevaient des liens externes mais elles ne faisaient pas bénéficier de ce « jus » aux autres pages du site (notamment les pages stratégiques). Nous avons donc optimiser l’ensemble du maillage interne dans le but de mieux distribuer le « jus SEO » vers les pages stratégiques.

Sans Gephi, cette analyses auraient été plus compliquées à réaliser.

Analyses des liens des concurrents

Les objectifs de cette visualisation étaient les suivants :

  • Visualiser le nombre de domaines référents des concurrents
  • Visualiser quels domaines référents notre site avait en commun avec ces concurrents ;

Sur le graphique :

  • En rouge = notre site
  • En bleu = sites des concurrents
  • En noir = les domaines référents
  • La taille des ronds = le trustflow

Sur ce graphique, plus la taille des ronds est élevée, plus le TrustFlow des domaines référents est élevé. Nous constatons rapidement que des concurrents possèdent des liens externes de qualité avec un TF élevé que nous ne possédons pas. En analysant de plus près ces concurrents, nous allons donc essayer de comprendre pourquoi et lancer les premières actions de netlinking. ;)

En manipulant le Graph, on peut facilement trouver les domaines référents que nos concurrents possèdent et que nous n’avons pas , tout en visualisant ceux ayant le meilleur TrustFlow.

Analyse des liens mutuels

Les objectifs de cette visualisation étaient les suivants :

  • Identifier les nœuds qui possèdent des liens mutuels (ceux dans une structure en silos)

Comment faire ?

  • Filtre > Liens mutuels

Sur le graphique :

  • Un rond sans lien => Une URL en dehors de la structure

liens mutuels gephi
Cette visualisation nous permet de détecter les pages qui ne sont pas liées rattachées à une section du site. Ainsi, vous pourriez mettre à jour les contenus concernés afin d’éviter qu’ils soient isolés de la structure globale. La crawl de Google sera ainsi plus fréquent et le référencement de ces contenus sera aussi meilleur.

Les astuces du mixeur

Les filtres dynamiques

Dans l’idéal, nous conseillons de tout importer dans Gephi (sauf si la quantité de données est trop importante). Il suffit ensuite de filtrer en live les données à afficher.

Par exemple, on peut importer un crawl entier, puis filtrer pour ne voir que l’HTML. On peut aussi afficher uniquement les liens réciproques (A fait un lien vers B et B vers A). C’est d’ailleurs exactement ce que vous pouvez voir sur la capture d’écran précédente.

Pour faire cela, c’est très simple. Dans l’interface de Gephi  à droite, allez dans l’onglet filtre et ensuite manipulez ceux dont vous avez besoin, notamment Liens > Mutual Edge. Attention cependant, après avoir appliqué un filtre, il faut exécuter de nouveau les différentes étapes importantes : calcul du PageRank, calcul de la modularité, réassigner la bonne taille aux nœuds puis refaire la spatialisation.

L’export Sigma dans Gephi

Le logiciel de cartographie de données Gephi est un projet Open Source. Comme WordPress, n’importe qui peut contribuer. Vous pouvez ainsi installer des extensions (via le menu « Outil > Modules d’extension »). Cherchez celui qui s’appelle SigmaExporter.

Vous pourrez ainsi exporter votre visualisation dans un fichier HTML. Et le gros intérêt, c’est que la manipulation de votre graphique est bien plus facile pour pouvoir l’utiliser en SEO :

  • faire une recherche sur un nœud (à gauche)
  • cliquer sur un nœud pour voir les informations associées à droite
  • cliquer sur un nœud pour ne voir que les autres URL directement liées

Cas pratiques et tests SEO

Lors de notre conférence, nous avons aussi fait 2 tests pour vous prouvez l’intérêt de l’outil.Le premier a été effectué sur un site sur les sports de raquettes et le second sur un site de jeux vidéos.

Voici quelques optimisations effectuées suite aux analyses Gephi :

  • Nettoyage SEO:
    • Suppression de tous les liens /pages inutiles:
    • Suppression des pages avec des contenus pauvres
    • Suppression des liens inutiles présents dans le code source
    • Correction des liens en redirection 301
  • Optimisation du PageRank:
    • Création de liens internes vers les pages stratégiques (ancres optimisés)
    • Maillage interne entre les pages proches sémantiquement et de manière réciproque
    • Maillage interne depuis les pages recevant des liens externes
    • Suppression des liens qui diluent la diffusion du PR
  • Optimisation du maillage:
    • Accueil avec catégories de 1er niveau et le dernier article
    • Plan de site avec uniquement catégories de 1er niveau
    • Menus en silos automatique (afficher/masquer les sous-menus automatiquement)
    • Catégories : afficher les sous catégorie ou les articles
    • Articles : liens vers contenus de même niveau

Grâce à ces optimisations le trafic et le positionnement SEO a progressé sur ces sites sans avoir touché à un seul contenu.

Vous pouvez d’ailleurs retrouver l »intégralité de la conférence et des slides ici :

Utilisation avancée de Gephi en SEO from Daniel Roch

Contactez-nous