09-75-24-68-97 | contact@digital-cookie.io

Visualiser son maillage interne avec Gephi

Découvrez votre site web comme vous ne le connaissiez pas ! Grace à Gephi, nous allons calculer le page-rank interne de nos pages, et voir si nous avons de vilaines fuites de jus !

Parmi les leviers qu’on cite le plus souvent en optimisation on-page, il y a le maillage interne. Quand on a un « petit » site, ce n’est pas difficile de savoir que les pages les plus liées, ce sont les pages qu’on trouve dans la navigation principale.

Mais dès qu’on dépasse un certain nombre de pages, ou que le maillage interne n’est pas créé que par le menu de navigation, ça devient plus compliqué de savoir « qui fait un lien à qui ». Et si on commence à aborder la question de la proximité sémantique entre les pages qui se font des liens (parce qu’on a envie d’optimiser tout ça), c’est la prise de tête garantie pour savoir où on en est exactement.

Heureusement, il existe des outils qui permettent de visualiser tout ça rapidement, facilement, et d’appliquer les fix adéquats s’il y a lieu de le faire. On attaque donc ce tuto avec Gephi.

3 outils indispensables pour visualiser son maillage interne

Pour visualiser son maillage interne, on va avoir besoin de trois logiciels :

  • Screaming Frog ou Xenu pour collecter les URL qui composeront notre tableau de données
  • Excel ou tableur équivalent pour remettre de l’ordre dans les données
  • Gephi, pour transformer les données en représentation visuelle

On commence donc par Screaming-frog…

Récupérer ses URL avec Screaming-Frog

Ultra simple : on télécharge le logiciel, on rentre l’adresse du site qu’on veut crawler dans le champ tout en haut, puis on clique sur « Start ». Quelques minutes plus tard, Screaming-frog a fini de parcourir tout le site.

Il suffit ensuite de cliquer dans le menu « Bulk Export », sous-menu « all outlinks », pour enregistrer tous les liens dans un tableur Excel (au format qui vous intéresse, je prends « XLS » pour plus de facilité). Enregistrez votre fichier Excel, puis lancez-le pour attaquer la phase « nettoyage »…

Exporter ses liens ne prends que quelques minutes
Exporter ses liens ne prends que quelques minutes

Filtrer les données sous Excel

Screaming-Frog a récupéré tout un tas de données lors du crawl, comme par exemple les fichiers CSS ou JS qui sont utilisés sur le site parcouru. Et, évidemment, on n’en a pas besoin, donc on va nettoyer tout ça.

D’abord, on va insérer un tableau sur le tableur, ça va être plus pratique pour la suite. On sélectionne toutes les colonnes du tableur, puis, on clique sur l’onglet « insertion », et ensuite sur « insérer un tableau ». On laisse bien l’option « mon tableau a des entêtes » de coché.

Ensuite, dans l’ordre :

  • Supprimer toutes les colonnes sauf « Type », « Source » et « Destination ».
  • Supprimez les deux premières lignes du tableur (qui ne font pas parti du tableau) : votre tableau doit maintenant être bien collé en haut à gauche de votre tableur
  • Cliquez sur l’en tête « type », puis triez le contenu de A à Z
  • Supprimez toutes les lignes qui ne sont pas du type « HREF »
  • Puis triez la colonne « Source », pour supprimer tout ce qui ne commence pas par l’URL de votre site (j’ai toujours pas compris comment des données autres que l’URL du site crawlé peuvent se retrouver là, si quelqu’un a des infos, je suis preneur). Normalement, vous ne devriez pas en avoir beaucoup
  • On supprime la colonne « HREF », puis on dédoublonne en cliquant sur l’onglet « Données » et sur « Supprimer les doublons ».
  • Et enfin, on dégage tout ce qui commence par http://www.votredomaine.tld/ histoire d’avoir plus de lisibilité sur le graph. Dans mon cas, je remplace tout ce qui commence en https://www.gdm-pixel.fr/ par « / ».

Reste une étape ultra-importante : remplacer tout les liens sortants par « OUT » (ou ce que vous voulez), et aussi supprimer les liens qui sont en nofollow s’il y en a ! EDIT : je viens de me rendre compte de la boulette : Google a shooté le page rank-sculpting il y a déjà un moment. Le nofollow occasionne quand même une perte de jus (disparition du crawler) donc vous pouvez remplacer les liens nofollow par « OUT »… 🙁

Bored cat
Oui, je sais, mais ça va s’arranger…

Et voilà, fin du nettoyage sous Excel !

Reste à enregistrer deux versions de ce tableur, au format CSV :

  • Un fichier « nodes.csv », qui contiendra deux colonnes : « Id » et « Destination »
  • Un fichier « edges.csv » qui contiendra deux colonnes : « Source » et « Target »

Et ensuite, on passe sur Gephi pour admirer tout ça…

Traiter les données sous Gephi

Aller, un dernier effort et on a presque fini !

Tout d’abord, on va importer les fichiers CSV. Pour ça, on va cliquer sur l’onglet « laboratoire de données », puis, dans la fenêtre qui s’ouvre, sur « importer feuille de calcul ». Dans la pop-up, on utilise le browser pour importer d’abord le fichier de Nodes (qui représente les pages). Puis on clique sur « Suivant », et on s’assure bien qu’on importe les « Id » et les « Destination ».

 On commence par importer les noeuds
On commence par importer les noeuds

Surtout, on ne coche pas la case « Forcer les nœuds importés à être de nouveaux nœuds. »

Puis on relance le process pour les « Edges » (les liens). Importer à Feuille de calcul. On sélectionne son fichier « edge.csv », puis on utilise le bouton select « En tant que table : Table des liens ». Puis on clique sur « Suivant », et on coche bien la checkbox « Créer les nœuds manquants » sur la fenêtre suivante. Puis « Terminer ».

On reste encore un peu dans le labo de données, puisqu’on va retravailler un peu les « nœuds » pour avoir une meilleure compréhension du résultat.

Sur la gauche, vous avez l’ID du nœuds, et un colonne « label » qui est vide. Cliquez sur Id pour trier tout ça, et sélectionnez les « Id » qui se ressemblent (là, il faut connaitre le site que vous voulez visualiser : les pages font-elles partie d’une catégorie ? Sont-elles liées entre-elles etc). Utilisez la touche MAJ + Clic gauche pour mettre ces éléments en surbrillance.

labo Gephi
Passez un peu de temps sur la labo pour améliorer la lisibilité du graph 🙂

Puis, faites « clic droit », et choisissez le menu « Editer tous les nœuds ». Vous avez une nouvelle colonne qui apparait sur la fenêtre, dans un onglet « Edition ». Dans cet onglet, vous trouverez des propriétés :

  • Taille
  • Position (x)
  • Position (y)
  • Couleur
  • Label Color
  • Label Size
  • Label Visible
  • Etc

On va juste modifier la couleur du label, pour ajouter des jolies couleurs sur le graph. Vous pouvez éventuellement modifier la taille du label, et ajouter du texte dans « Label » (tout court). Ca permettra de mieux remarquer les noms des pages sur les clusters qui pourraient se former.

Faites ceci pour toutes les catégories que vous pouvez avoir sur votre site, ou les ensembles notables. N’oubliez pas de colorer votre nœud « OUT » (un beau rouge bien criard sera approprié), idem pour la Home.

Et quand on a fini tout ça, on va directement se rendre sur l’onglet « Vue d’ensemble » tout en haut à gauche.

On va maintenant procéder à une étape importante : modifier la taille des nœuds en fonction des liens entrants. Plus une page reçoit de lien, plus elle a de jus (pour faire simple). Donc, ça se passe dans l’onglet « Aspect » : cliquez sur l’icône « Taille », puis sur la sous-section « Attribut ».

Utilisez le bouton select pour choisir « Degré entrant » et assignez des valeurs au pif : perso, je mets 30 et 150, mais il faudra peut-être remanier tout ça en fonction du rendu. C’est juste histoire de donner des tailles différentes aux nœuds, pour repérer plus rapidement les pages qui ne reçoivent que très peu de liens (ou celles qui en ont trop…).

modifier-taille-noeuds
Une étape indispensable si on veut avoir un rendu plus explicite…

Appliquer l’algo de spatialisation

On se rend ensuite dans l’onglet « Spatialisation », et on sélectionne « Force Atlas 2 ». On coche bien les cases « Mode LinLog » et « Empêcher le recouvrement ». Eventuellement, on adaptera le graph en tunant « Echelle », « Gravité » et « Répulsion approximative ».

Perso, j’y touche pas, ça va bien le faire comme ça.

Cliquez sur « Exécuter » et ouvrez bien l’onglet « Graph » sur la fenêtre de visualisation.

Si c’est la première fois que vous utilisez le soft, que tout s’est bien passé et que vous faites le tuto pour votre site, normalement, vous avez le sourire 🙂

Spatialisation Gephi
Quand l’algorithme de spatialisation tourne, c’est magique !

Les derniers petits réglages : on coche l’icone « T » dans la fenêtre de visualisation, le clé anglaise tout à droite, et on clic sur « Nœuds » à « Sélectionner les attributs à afficher en tant que label » à Id et Label.

Vous pouvez arrêt er l’algorithme de Spatialisation, et cliquer sur « Prévisualisation » dans le menu du haut (normalement, votre carte graphique crie « Aie » à ce moment là). Vous pouvez alors afficher les label sur le graph figé, et exporter le tout au format PDF/PNG.

Et voilà !

visualisation
Vous pouvez maintenant exporter le graph de votre site 🙂

Attention : ici, on ne fait pas de calcul du PR, ça vous donne simplement un aperçu du maillage interne, histoire de voir si vous avez des clusters cohérents, et pas trop de perte au niveau des liens sortants. Je ne dis pas que les liens sortants sont à éviter, je dis que les liens sortants sont à utiliser avec parcimonie (et dans une démarche stratégique). On verra dans une prochaine vidéo comment on peut utiliser Gephi pour avoir une approximation du PR des pages.

Pourquoi c’est utile de visualiser votre maillage interne

Oh, pour pleins de raisons :

  • Voir si une page ne reçoit pas « trop » de jus (page de contact, page des mentions légales etc)
  • Voir si une page importante n’est pas en manque de liens
  • Voir si vous ne faites pas trop de liens sortant (on le remarque tout de suite avec le nœuds « OUT » qui est trop gros, si vous faites des liens vers vos réseaux sociaux par exemple)
  • Voir si on a des clusters cohérents qui se forment (structure en silo, cocon sémantique etc).

Si vous avez des questions, c’est dans les commentaires que ça se passe ! Merci à Aurélien Berrut, Jérome et Sylvain Vandewalle pour l’inspiration 🙂

Ressources conseillées :

Tout savoir sur le cocon sémantique

Bombyx, le plugin ultime pour gérer son cocon sur WP

A propos de l'auteur

Charles Annoni est chef de projet web depuis 2008. Formateur en référencement naturel, E-commerce et Webmarketing (6 centres de formation en Normandie), il est également Webmaster Freelance et accompagne les entreprises dans leur développement sur le web.