Comprendre comment scraper Internet sans avoir aucune compétence technique
Nous avons vu dans la partie 1 de ce tuto comment aller extraire de n'importe quel site web toutes les URLs de pages contenant des données que nous souhaitons scraper. Dans ce tuto, nous allons scraper ces pages pour aller chercher ces fameuses données 👇
Pour scraper les pages d'un site web, j'utilise un outil précieux qui s'appelle Octoparse. La version gratuite de l'outil permet déjà de faire plein de choses 😉
Téléchargez Octoparse et installez-le sur votre ordi. Quand c'est fait, venez lire la suite de ce tuto 👇
Octoparse fonctionne avec un système de "Task". Une "Task" est basée sur :
Créer une nouvelle tâche, en cliquant sur "New" puis "Advanced Mode".
On va se servir de notre fichier Google Sheets avec toutes les URLs obtenues dans la partie du tuto. On va donc sélectionner "Import from file"
Téléchargez les données de votre Google Sheets au format CSV puis importez le fichier CSV dans Octoparse
Cliquez sur "Save" et c'est parti pour le scrapiiiiiiiing ⚡️
Vous arrivez sur l'interface d'Octoparse qui permet de scraper. Ne prenez pas peur, ce n'est pas si compliqué que ça en a l'air.
Première chose : il vous faudra jouer souvent avec le toggle "Browse" en haut de l'écran qui va vous permettre de switcher entre la sélection d'éléments sur Octoparse et les interactions avec la page. Par exemple ici, le bandeau de cookies me gêne, donc je passe en "Browse" activé pour cliquer sur "Accepter" et le faire disparaître.
Sur votre écran, vous avez :
Nous allons essayer de récupérer les données suivantes sur chaque médecin :
Pour aller chercher ses datas, nous allons simplement cliquer dessus (n'oubliez pas de re-désactiver le mode "Browse"). Par exemple, si je veux le numéro, je clique dessus et Octoparse me propose directement plusieurs options dans la petite popup "Tips" qui s'ouvre. Dans notre cas, nous souhaitons extraire le texte de l'élément (= le numéro) donc je clique sur "Extract the text of the element"
Une nouvelle étape a été ajoutée à mon scénario et le panel du bas m'affiche désormais le numéro du médecin !
Je reproduis la même chose (clic sur l'info à extraire > clic sur "Extract the text of the element") pour chaque info que je veux aller scraper
Et voilà, vous avez quasiment terminé ! Il nous reste à lancer notre robot pour qu'il aille nous ramener toutes les données qu'on lui a dit d'aller chercher.
Pour ceci, sauvegardez votre scénario en cliquant sur "Save" en haut à droite, puis cliquez sur "Run". Vous avez alors 2 choix :
L'option "Cloud" étant payante, nous allons utiliser "Run on your device". Votre robot exécute votre scénario : il va sur toutes les pages et en extrait les données demandées.
A la fin de l'exécution du scénario, il vous suffit de cliquer sur "Export Data" pour récupérer toutes les données scrapées dans un fichier CSV ! ✨
On peut faire beaucoup beaucoup de choses avec Octoparse et vous n'êtes qu'au début des possibilités dingues que cela vous met entre les mains. Nous verrons dans d'autres tutos comment aller chercher de la data un peu partout grâce au scraping 😉