09-75-24-68-97 | contact@digital-cookie.io

Scrapebox : tutoriel vidéo en français

Aujourd’hui, petit tutoriel sur l’utilisation de Scrapebox, un logiciel de scrapping, utilisé par tous les référenceurs, white-hat comme black-hat. Scrapebox sert à collecter des résultats de recherche sur les moteurs comme Google, Yahoo, Bing etc, mais aussi à faire du spamco (du spam de commentaires de blog, ouh que c’est mal), à récupérer des adresses mails de façon automatique, récupérer des images, générer des mots-clés, bref, c’est un véritable couteau-suisse pour tout SEO qui a décidé de s’asseoir sur les guidelines de Google se respecte.

Pourquoi un tuto sur Scrapebox ?

Pour une raison toute simple : on va en avoir besoin pour les prochains tutos sur la rédaction de masse (mais on verra aussi comment s’en passer). On va devoir utiliser Scrapebox en complément de The Best Spinner, et de quelques plugins pour Firefox, notamment pour collecter des images, et pour ça, la première chose dont on va avoir besoin, c’est de quelques proxies. En effet, Google n’apprécie pas trop qu’on effectue des requêtes massivement, et si vous scraper Google sans proxy, il va rapidement vous envoyer un captcha, ou bannir temporairement votre adresse IP. Notez également que vous pouvez configurer un résolveur de Captcha sur le logiciel (De-captcher, deathbycaptcha, imagetyperz etc).

Pour récupérer des proxies compatibles avec la fonction de recherche de Scrapebox, vous pouvez vous en procurer sur le web, chez buyproxies.org par exemple, ou bien utiliser un logiciel comme Proxymultiply. Si vous optez pour la seconde solution, il faudra peut-être vous armer de patience car la collecte de proxy de bonne qualité peut prendre du temps, surtout si vous préférez utiliser des proxy européens. Avec la location de proxy dédiés au semi-dédiés, au moins, vous êtes tranquilles.

Utiliser des proxies pour Scrapebox

Pour le tutoriel, nous avons utilisé des proxies semi-dédiés, qui sont partagés avec trois utilisateurs. Notez bien que plus vous aurez de proxies, plus le scrap sera rapide et moins vous aurez de chances de voir des proxies temporairement bannis de toute requête chez Google. J’utilise des proxies pas cher, que je loue chez Buyproxies.org. Une fois votre commande passée, vous recevez l’adresse IP des proxy, ainsi que votre nom d’utilisateur et votre mot de passe. Notez également qu’il peut être intéressant d’installer Scrapebox sur un VPS (les premiers prix sont chez OVH, avec des perfs assez intéressantes), ça facilitera largement le travail de collecte. Sans proxy, c’est même pas la peine de tenter le scrap, il ne passera pas !

Rendez-vous sur Scrapbox, et cliquez sur le bouton « Manage » situé en bas à gauche de votre interface principale. Une nouvelle fenêtre s’ouvre, puis cliquez sur « Load », en bas à gauche, et chargez la liste de vos proxies (attention à la syntaxe : ip:port:username:password). Une fois que les proxies sont chargés, cliquez sur « Test proxies » pour vérifier que vos proxies sont bien compatibles avec Scrapebox. Le soft va pinger Google, vérifiez que les proxies sont bien anonymes, et vous donnez des informations sur le temps de réponse. Rejetez les proxies morts en cliquant sur « Filter » –> « Keep Google proxies », puis cliquez sur « Save » –> « Save to scrapebox » et fermez le manager.

Scraper comme un fou !

Dans la fenêtre du haut, le champ « M » concatène la foot print que vous recherchez avec la liste de mots-clés que vous rentrez juste en dessous. Par exemple, vous pourriez choisir une footprint « référencement » et mettre en mots-clés une liste de ville. Les opérateurs comme « allintitle« , « allintexte » etc sont aussi acceptés, c’est comme si vous faisiez une recherche directement sur Google.

Dans la fenêtre en bas à gauche, « Select Engines and Proxies », vous pouvez affiner votre recherche en sélectionnant les moteurs de votre choix, en choisissant uniquement de rechercher des vidéos, des actualités… Vous pouvez aussi choisir le nombre de résultats que vous souhaitez scraper, ainsi que la durée globale de l’opération.

Cliquez ensuite sur « Start Harvesting » dans la fenêtre centrale. Patientez un peu, et Scrapebox vous sortira une jolie liste d’URL ! Vous pouvez ensuite filtrer les résultats, en enlevant par exemple les doublons d’adresse, en raccourcissant l’URL pour ne conserver que le nom de domaine, et vous pouvez également vérifier le page Rank des pages concernées, récupérer des adresses mail (pas bien !), des commentaires, des infos en tout genre etc.

Vous n’avez plus qu’à exporter la liste d’URL, dans un fichier texte, dans un fichier CSV ou Excel, ou directement dans le presse-papier. Et c’est tout ! Ca n’est pas plus compliqué que ça, du moins pour l’opération de scrap pure.

Si vous installez scrap box sur votre machine suite à ce tutoriel, profitez-en pour installer également l’addon « scrap box Google images Grabber« , qui pourrait bien vous servir pour le prochain tutoriel complet sur le spinning avancé…

Des proxies pas cher pour scrapeboxTélécharger Scrapebox sur le site de l’éditeur

A propos de l'auteur

Charles Annoni est chef de projet web depuis 2008. Formateur en référencement naturel, E-commerce et Webmarketing (6 centres de formation en Normandie), il est également Webmaster Freelance et accompagne les entreprises dans leur développement sur le web.