Découvrez votre site web comme vous ne le connaissiez pas ! Grâce à Gephi, nous allons calculer le page-rank interne de nos pages, et voir si nous avons de vilaines fuites de jus !
Parmi les leviers qu’on cite le plus souvent en optimisation on-page, il y a le maillage interne. Quand on a un « petit » site, ce n’est pas difficile de savoir que les pages les plus liées, ce sont les pages qu’on trouve dans la navigation principale.
Mais dès qu’on dépasse un certain nombre de pages, ou que le maillage interne n’est pas créé que par le menu de navigation, ça devient plus compliqué de savoir « qui fait un lien à qui ». Et si on commence à aborder la question de la proximité sémantique entre les pages qui se font des liens (parce qu’on a envie d’optimiser tout ça), c’est la prise de tête garantie pour savoir où on en est exactement.
Heureusement, il existe des outils qui permettent de visualiser tout ça rapidement, facilement, et d’appliquer les fix adéquats s’il y a lieu de le faire. On attaque donc ce tuto avec Gephi. Au passage, on fait un lien vers une image avec la fancybox : Poisson Rouge Qui Fait De La Corde A Sauter et un autre lien vers une image classique (Hamster Ardent Qui Mange Une Banane Rouge) ;). Ceci pour montrer que Google suit bien les liens qui pointent vers les images (faites une recherche sur “Hamster Ardent Qui Mange Une Banane Rouge” dans Google image). Le poisson rouge pourrait également apparaître, mais bien plus tard, d’autant plus qu’il ne bénéficiera pas du poids attribué à l’ancre de lien (car il n’y a pas de lien qui pointe vers lui).
C’est d’autant plus utile qu’avec le Page-Rank, c’est assez compliqué de savoir précisément quelle page reçoit le plus de jus : on a souvent des surprises la première fois qu’on réalise le graph de son site.
3 outils indispensables pour visualiser son maillage interne
Pour visualiser son maillage interne, on va avoir besoin de trois logiciels :
- Screaming Frog ou Xenu pour collecter les URL qui composeront notre tableau de données
- Excel ou tableur équivalent pour remettre de l’ordre dans les données
- Gephi, pour transformer les données en représentation visuelle
Pour Excel, on trouve des licences pour trois francs-six sous en cherchant un peu sur le web… (ici par exemple !)
Récupérer ses URL avec Screaming-Frog
Ultra simple : on télécharge le logiciel, on rentre l’adresse du site qu’on veut crawler dans le champ tout en haut, puis on clique sur « Start ». Quelques minutes plus tard, Screaming-frog a fini de parcourir tout le site.
La version gratuite devrait suffire, sauf si vous avez un site de plus de 500 pages.
Il suffit ensuite de cliquer dans le menu « Exportation en bloc », sous-menu « Liens », puis “Tous les liens sortants” pour enregistrer tous les liens dans un tableur Excel (au format qui vous intéresse, je prends « XLSX » pour plus de facilité). Enregistrez votre fichier Excel, puis lancez-le pour attaquer la phase « nettoyage »…
Filtrer les données sous Excel
Screaming-Frog a récupéré tout un tas de données lors du crawl, comme par exemple les fichiers CSS ou JS qui sont utilisés sur le site parcouru. Et, évidemment, on n’en a pas besoin, donc on va nettoyer tout ça.
D’abord, on va insérer un tableau sur le tableur, ça va être plus pratique pour la suite. On sélectionne toutes les colonnes du tableur, puis, on clique sur l’onglet « insertion », et ensuite sur « insérer un tableau ». On laisse bien l’option « mon tableau a des entêtes » de coché.
Ensuite, suivez ces étapes, et tout devrait bien se passer…
Trier les éléments
Par défaut, Screaming Frog liste tout, absolument tout. Mais ici, il n’y a que les liens qui nous intéressent. On va donc supprimer tout ce qui n’est pas “Hyperlink”. Pour ça, utilisez les filtres des colonnes pour faire “disparaitre” Hyperlink, puis supprimez toutes les lignes de la feuille. Ensuite, faites réappartaitre “Hyperlink”.
Dédoublonnage
Screaming-frog, pendant l’export, a sorti tous les liens, y compris les doublons. Or, quand Google trouve deux fois le même lien sur une page, il n’en retient qu’un (il fait une exception toutefois pour les liens qui contiennent une ancre de lien, par exemple https://www.exemple.fr/toto/#ancredelien.
Donc, ici, vous allez cliquer sur une cellule, puis, dans l’onglet “Données”, cliquez sur “Supprimer les doublons”. Dans la pop-up, retenez uniquement “Source” et “Destination”. Exel va alors supprimer beaucoup de liens du tableur.
Traiter les en tetes HTTP
C’est un des trucs les plus importants sur le tableur.
Les codes HTTP, ou en-tête de réponse HTTP, c’est la réponse que fait le seveur quand on lui demande quelque chose.Voici les en-têtes les plus courantes :
En tête http 200
Tout va bien, le contenu demandé est servi. C’est ce qu’on veut en SEO, la plupart du temps.
Pour les ressources en “200”, on ne fait rien, on est content.
En tête http 301 / 302
Il y a eu une redirection. La ressource demandée a changé d’adresse, et le serveur de page est au courant. Il oriente donc le client (le robot ou le navigateur) à se rendre directement à la nouvelle adresse.
En soi, ça n’est pas très grave, c’est même plutôt sain, ça veut dire que le site vit, qu’il est bien maintenu. Non, le problème, c’est le volume. Quelques redirections, c’est ok. Mais plus de 1 à 2 %, ça devient embêtant, surtout pour un gros site. Il faut alors voir pourquoi ça redirige, et corriger le tir, en réécrivant les liens qui pointent vers les anciennes versions des pages par exemple.
Donc, là, vous avez deux possibilités
- Vous indiquez simplement “301” (ou “302”) dans la colonne “Destination” pour représenter le noeud des redirections sur le graph.
- Vous regardez vers quelles adesses pointent les redirections et remplacez la destination sur le graph, pour voir quelle page reçoit le jus au final.
Si vous n’avez pas trop de redirections, faites-le à la main. S’il y en a beaucoup, il faudra faire appel à une solution tierce (Zennoposter par exemple), ou bien vous contenter de mettre un noeud “30X” sur le graph.
En tête http 403 / 404
C’est pas bon. Du tout. Vous ne devez pas avoir de 40X sur votre site. Google ne doit pas se prendre de “crampe” quand il parcourt votre site.
Il faudra corriger ces erreurs rapidement.
Indiquez 40X sur les “destinations” du tableur.
En tête http 50X
C’est chaud. Une 50X, c’est une grosse erreur, un défaut de maintenance (je fais court et simple, les admins-sys, ne me sautez pas à la gorge). Google verra votre site comme un truc mal maintenu, encore plus qu’avec une 404. A fixer très rapidement.
Indiquez 50X sur les “destinations” du tableur.
Traitement du nofollow et du blocage par robots.txt
Le nofollow, c’est un attribut inventé par Google, pour Google. Pour faire simple et court, quand Google voit un lien nofollow (ou qu’on lui bloque l’accès à une page avec le robots.txt), il se téléporte et sort du site. C’est l’exact opposé de ce que vous voulez pour votre site !
Pour toutes les colonnes qui ont “faux” dans la colonne “Suivre” ou qui ont un statut “bloqué par le robots.txt”, vous allez indiquer “OUT” sur la colonne “Destination” : le robot de Google ne peut pas s’y rendre et se téléporte.
Traiter les liens externes
Même exercice que pour le nofollow : à chaque fois que vous voyez un lien pointer vers une ressource externe, vous indiquez dans la colonne “Destination” : OUT. On veut représenter la sortie du site pour le robot de Google.
Préparer le fichier pour l’export
Enfin, on va préparer le fichier de sortie. Tout d’abord, faites CTRL + H, ce qui va ouvrir le menu “chercher/remplacer”. Faites une recherche sur “https://adresse-de-votre-site.fr/” que vous remplacerez par uniquement ”/“. Ca allègera le nom de noeuds dans la laboratoire de données.
Puis, changez le nom de la colonne “Destination” : elle doit désormais s’appeler “Target”.
Enfin, enregistrez votre fichier au format CSV (séparateur “point virgule”).
Et ensuite, on passe sur Gephi pour admirer tout ça…
Traiter les données sous Gephi
Aller, un dernier effort et on a presque fini !
Tout d’abord, on va importer les fichiers CSV. Pour ça, on va cliquer sur l’onglet « laboratoire de données », puis, dans la fenêtre qui s’ouvre, sur « importer feuille de calcul ». Pas de pièges, faites juste “suivant, suivant” etc et “terminer”, on garde toute la configuration par défaut.
Une fois le tableur importé, vous allez pourvoir le visualiser dans l’onglet “laboratoire de données”. Remplacez la couleur des noeuds et remplissez les lables.
Calcul du page rank
Maintenant, rendez-vous dans l’onglet “Statistiques”. Il y a un bouton “Page Rank”. On clique dessus pour calculer le PR, que vous retrouverez ensuite dans le laboratoire de données. A cette occasion, profitez-en pour regarder quelle page a le plus fort PR… On a souvent des surprises ici !
Modifier la taille des noeuds
Ensuite, vous allez pouvoir modifier la taille des noeuds, dans la fenêtre “apparence”. Ici, choisissez de modifier la taille, en fonction du page rank précédemment calculé.
Appliquer l’algo de spatialisation
On se rend ensuite dans l’onglet « Spatialisation », et on sélectionne « Force Atlas 2 ». On coche bien les cases « Mode LinLog » et « Empêcher le recouvrement ». Eventuellement, on adaptera le graph en tunant « Echelle », « Gravité » et « Répulsion approximative ».
Perso, j’y touche pas, ça va bien le faire comme ça.
Cliquez sur « Exécuter » et ouvrez bien l’onglet « Graph » sur la fenêtre de visualisation.
Si c’est la première fois que vous utilisez le soft, que tout s’est bien passé et que vous faites le tuto pour votre site, normalement, vous avez le sourire 🙂
Quand l’algorithme de spatialisation tourne, c’est magique !
Les derniers petits réglages : on coche l’icone « T » dans la fenêtre de visualisation, le clé anglaise tout à droite, et on clic sur « Nœuds » à « Sélectionner les attributs à afficher en tant que label » à Id et Label.
Vous pouvez arrêt er l’algorithme de Spatialisation, et cliquer sur « Prévisualisation » dans le menu du haut (normalement, votre carte graphique crie « Aie » à ce moment là). Vous pouvez alors afficher les label sur le graph figé, et exporter le tout au format PDF/PNG.
Et voilà !
Vous pouvez maintenant exporter le graph de votre site 🙂
Pourquoi c’est utile de visualiser votre maillage interne
Oh, pour pleins de raisons :
- Voir si une page ne reçoit pas « trop » de jus (page de contact, page des mentions légales etc)
- Voir si une page importante n’est pas en manque de liens
- Voir si vous ne faites pas trop de liens sortant (on le remarque tout de suite avec le noeuds « OUT » qui est trop gros, si vous faites des liens vers vos réseaux sociaux par exemple)
- Voir si on a des clusters cohérents qui se forment (structure en silo, cocon sémantique etc).
Attention, le calcul du page-rank est “old school” ici
La version de l’algo du Page-rank utilisée ici, c’est la version originelle. Et depuis, le PR a beaucoup évolué :
-
- Prise en compte de la position du lien
- Prise en compte de l’environnement sémantique
- Dévaluation des liens du footer
- etc
- Prise en compte de la position du lien
Mais quoi qu’il en soit, même avec la “vieille” version du page-rank, c’est toujours intéressant de pouvoir se représenter la probabilité de présence du robot de Google, et voir si on a de grosses fuites de jus.