Maintenant que vous avez téléchargé Octoparse sur votre appareil et appris les connaissances de bases, il est temps de commencer votre propre projet de web scraping !
La plupart des sites web (annuaires, e-commerce, sites immobiliers, etc.) partagent des mises en page similaires, par exemple une page contenant de nombreux articles répertoriés dans une liste. Regardons quelques exemples.
Decathlon.fr
Amazon
Le tout nouvel algorithme Auto-détection d'Octoparse est spécifiquement conçu pour scraper ce type de pages. Il peut détecter automatiquement les données de liste (le texte et les liens par exemple), les boutons Page suivante, les boutons Charger plus et le défilement à l'infini, puis configurer automatiquement un flux de travail.
Dans ce tutoriel, nous vous montrons comment extraire des données de page Web à l'aide de cet algorithme.
Note :
S'il s'agit de votre première expérience, nous vous recommandons de suivre les 5 étapes suitantes en utilisant l'URL d'exemple. Une fois que vous aurez réussi, créez vos propres tâches en utilisant vos propres URL.
Étape 1 : Créer une nouvelle tâche
Entrez l'URL "http://test-sites.octoparse.com/?product_cat=e-commerce-category-1" comme exemple dans la zone de recherche sur la page d'accueil. Cliquez sur Démarrer pour créer une nouvelle tâche.
Étape 2 : Obtenir des données via l'auto-détection
Lorsque la page web est complètement chargé dans le navigateur interne d'Octoparse, vous pouvez cliquer dans le Conseils le buton Autotétection des données de la page web pour lancer la détection automatique. Attendez patiemment jusqu'à ce que le processus de détection se termine 100% et que plus de nouvelles informations soient affichées sur le Conseils.
Note :
Si les données dont vous avez besoin ne sont pas accessibles dès le chargement de la page, vous pouvez essayer d’interagir avec la page Web avant de lancer la détection automatique des données.
Si c’est la première fois que vous utilisez Octoparse, la fonction de détection automatique sera activée par défaut afin de simplifier la configuration. Une fois que vous accédez au site Web ciblé, vous remarquerez qu’Octoparse commence automatiquement à détecter la page. Si vous n’avez pas besoin de cette fonction, vous pouvez la désactiver dans les paramètres, puis cliquer sur le bouton Détection automatique des données de la page Web pour lancer la détection manuellement.
Étape 3 : Vérifier les données
Une fois que l'auto-détection est terminée, suivez les instructions dans le panneau de Conseils et vérifiez vos données dans la partie en bas d'écran Aperçu des données. Vous pouvez supprimer ceux qui ne sont pas nécessaires. Les données détectées seront également mises en évidence sur la page web pour que vous puissiez les trouver facilement.
Étape 4 : Confirmer vos options
Maintenant, tournez vos regard aux conseils pour faire vos options. Plusieurs options vous seront proposées dont la plupart sont cochés par défaut.
Extraire les données dans la liste - Cette option est sélectionnée par défaut, car logiciel d'Octoparse pense que c'est ce que vous devez faire.
Paginer pour récupérer plus de pages - Pour vérifier si le bouton détecté est bien le bouton page suivante, vous pouvez cliquer sur Vérifier et le bouton sélectionné sera mis en évidence sur la page. Si vous souhaitez sélectionner à nouveau le bouton page suivante, cliquez sur Éditer et suivez les instructions indiquées dans le Conseils.
Ajouter un défilement de page - Cette option est cochée par défaut lorsque les informations de la page à extraire n'apparaissent pas sur le premier écran, mais doivent être déroulées avant d'apparaître.
Note : Pour vérifier si le bouton détecté est bien le bon, cliquez sur Vérifier et observez s’il est mis en surbrillance sur la page Web.
Si vous devez re-sélectionner le bouton « Suivant », cliquez sur Éditer et suivez les instructions affichées dans le panneau d’astuces.
Étape 5 : Créer un flux de travail
Après avoir confirmé les paramètres, cliquez sur Créer un flux de travail.
Octoparse générera automatiquement un flux de travail. Vous pouvez choisir d'exécuter la tâche tout de suite ou de modifier le workflow manuellement.
Voilà, c'est fait !
Continuez à Leçon 2 : Optimisez votre tâche