Guide Webscraper (.) Io byAutomateAi
Guide Webscraper (.) Io byAutomateAi
Guide Webscraper (.) Io byAutomateAi
Sold to
[email protected]
I. Introduction à Webscraper.io
Ce document est un guide pour l'utilisation de Webscraper.io, une extension gratuite permettant
l'extraction de données à partir de sites web en utilisant des sitemaps. Ce guide décrit comment
installer et utiliser Webscraper.io, ainsi que comment créer, modifier et exporter des sitemaps.
1. Webscraper.io est un outil qui utilise le menu Chrome Developer tools et permet d'extraire
des informations des sites web.
2. Les sitemaps regroupent toutes les informations relatives à l'extraction d'un site web
particulier en un seul endroit.
3. Les utilisateurs peuvent créer un nouveau sitemap, importer un sitemap existant ou créer
un sitemap vierge et modifier les métadonnées si nécessaire.
5. Les utilisateurs peuvent exporter et partager des sitemaps avec d'autres utilisateurs afin
de les importer dans leurs propres outils de recherche sur le web.
1 - Installation de Webscraper.io
Tapez "webscraper.io" dans votre barre d'URL pour accéder au site Web du scraper. Le
site est riche en documentation ainsi qu'un forum très actif. Webscraper.io met
régulièrement à jour ces deux sections avec des informations qui peuvent aider à
résoudre des problèmes spécifiques qui surviennent. Pour installer l'extension elle même,
cliquez sur le bouton “Install”.
© Copyright @Conference_Inno 1
2 - Naviguer vers Webscraper.io
© Copyright @Conference_Inno 2
La première fenêtre qui apparaît lors de la navigation vers Webscraper.io est le panneau
sitemap (voir Créer un sitemap). Un sitemap organise toutes les informations nécessaires
pour Scraper un site Web particulier. Il sera vide lors de l'installation, mais une fois que
vous aurez créé des sitemaps, ils apparaîtront ici. La première colonne répertorie l'ID, ou
le nom de chaque sitemap. La deuxième colonne est l'URL ou l'adresse Web de la
première page de ce sitemap.
1 - Menu sitemap
Webscraper.io s'ouvre automatiquement sur le menu Sitemap, qui répertorie tous les
sitemap créés par l'utilisateur dans le scraper. Ici, les utilisateurs peuvent voir tous leurs
sitemaps à côté de chaque URL de départ. Ils ont également la possibilité de supprimer
des sitemaps. Veillez à ne pas supprimer les sitemaps, car ils ne peuvent pas être
récupérés à moins qu'ils ne soient exportés ailleurs. Cliquez sur le titre ou l'URL d'un
sitemap pour l'ouvrir.
© Copyright @Conference_Inno 3
2.2. Importation d'un sitemap
Le bouton 'Create sitemap' ouvre une fenêtre similaire à la fenêtre ouverte par le bouton
'Import sitemap'. La différence ici est qu'il n'y a pas d'informations précédentes et que le
nouveau sitemap ne contiendra aucune information. L'utilisateur crée un nouveau sitemap
au début de tout projet afin de créer les sélecteurs qui extrairont les informations d'un
site Web. Cela nécessite le nom du sitemap et l'URL d'un site Web, qui est généralement
la page d'accueil. Le titre du sitemap a quelques règles : il ne peut pas avoir de
majuscules, limite les caractères spéciaux qu'il reconnaît et doit commencer par une
lettre. Il peut être utile de copier et coller l'URL dans le champ "URL de départ" pour
éviter les erreurs.
© Copyright @Conference_Inno 4
2.4. Modification des métadonnées du projet
Si le nom du sitemap ou l'URL de départ doivent être modifiés, les utilisateurs peuvent le
faire dans le panneau "Modifier les métadonnées" en cas d'erreurs ou si le projet
appartient à un projet plus vaste en dehors du Webscraper qui nécessite une
modification. Le nom du sitemap est presque toujours l'information qui doit être modifiée,
pas l'URL de départ.
Les champs sont modifiés de la même manière que lors de la création du sitemap.
Sachez que la modification de l'URL de départ peut affecter les sélecteurs prédéfinis de
manière involontaire, en particulier ceux qui sélectionnent des informations uniques. Étant
donné que les sélecteurs n'utilisent que le HTML, tout sélecteur sur la page d'accueil
recherchera ce code. Si la page d'accueil change, les sélecteurs rechercheront du code
qui n'existe peut être pas sur la nouvelle page, puis renverront un "null" dans les données
récupérées. Un autre problème qui peut survenir est que le scraper peut extraire les
mauvaises informations. Le code HTML de l'URL de départ peut ne pas changer, mais son
contenu peut avoir changé. Cela peut prêter à confusion lors de l'examen des données
récupérées. Il est sage de revérifier les sélecteurs afin qu'ils agissent toujours comme
prévu après avoir modifié l'URL de départ.
© Copyright @Conference_Inno 5
Le bouton “Element Preview” met une surbrillance rouge autour de tous les éléments dans
le code du sélecteur. Cela permet de s'assurer que tous les éléments sont sélectionnés.
En revanche, le bouton "Data Preview" ouvre une fenêtre contextuelle avec un instantané
des données définies pour l'extraction dans ce sélecteur lorsque Webscraper.io récupère le
sitemap.
La case à cocher “Multiple” indique à Webscraper.io d'extraire plus d'un des éléments
sélectionnés. Ceci est utile lorsqu'il existe des listes ou des liens de navigation avec
plusieurs balises identiques sur la page.
© Copyright @Conference_Inno 6
Cette section traite de la deuxième étape. (Voir les sections 1 à 3 pour la première étape
et les sections 5 à 7 pour la troisième étape.) La création d'un sitemap et de sélecteurs
indique au système quoi faire pendant le processus de scraping. Ensuite, les utilisateurs
demandent à Webscraper.io de parcourir tous les sélecteurs et d'effectuer les actions
définies avec le panneau Scrape, lorsque les données sont réellement extraites du site
Web. Le scraper utilise les informations extraites ici pour générer des aperçus et exporter
des fichiers.
Les utilisateurs ont la possibilité d'ajouter soit un intervalle de demande, soit un délai de
chargement de page à l'ensemble du processus de scraping. (Voir Création d'un
sélecteur). Avec les deux options, le scraper charge les pages avec un timing différent
afin que les sites Web puissent charger les informations avant que le scraper ne
commence à extraire les informations. Le délai est en millisecondes, avec une valeur par
défaut de 2000. Tout ce qui est plus court que cela peut signifier que la page n'a pas
chargé d'informations pour le scraping. Les deux options ajoutent du temps au
chargement d'une page s'il y a beaucoup d'informations ou s'il y a des éléments qui
prennent plus de temps à charger. Une fois l'heure préférée saisie, cliquez sur le bouton
"Démarrer le scraping".
© Copyright @Conference_Inno 7
Webscraper.io configure les données sous forme de feuille de calcul et fournit un aperçu
des données avant de télécharger le fichier CSV. Cela aide les utilisateurs à s'assurer que
toutes les données sont présentes et prises en compte, y compris les informations
présentes dans les différentes balises HTML et CSS de tous les sélecteurs dans le
sitemap. Notez que l'ID du sélecteur est désormais l'entête de la colonne. Le fichier CSV
exporté structurera les données de la même manière que l'aperçu.
L'exportation du sitemap génère du code JSON dans la boîte qui s'ouvre lorsque les
utilisateurs accèdent au panneau. Le moyen le plus sûr de copier le code consiste à
cliquer dans la zone, puis à appuyer sur CTRL+A pour sélectionner tout le texte. Les
utilisateurs peuvent ensuite copier le code en appuyant sur CTRL+C ou en cliquant avec
le bouton droit de la souris et en sélectionnant "Copier". Le code peut ensuite être collé
sous forme de fichier texte dans un traitement de texte pour enregistrer une copie ou
dans un email pour le partager. Toute modification ailleurs dans Webscraper.io modifiera
également cette exportation, de sorte que les sitemap précédemment enregistrés ne
seront pas exacts.
© Copyright @Conference_Inno 8
Rejoignez-nous sur TELEGRAM https://t.me/automate_ai
© Copyright @Conference_Inno 9