Nous avons apporté d'importantes mises à jour à la fonctionnalité de l'auto-détection des données des pages web afin d'améliorer le taux de reconnaissance et la précision des éléments sur près de 200 domaines populaires :
Amélioration de la précision et de l'exhaustivité dans l'identification des éléments valides.
Ajout de la capacité à reconnaître le contenu nécessitant un défilement dans une zone spécifique de la page.
Meilleur taux de reconnaissance pour les scénarios impliquant des boutons de pagination, un défilement infini, etc.
Mise en place d'une dénomination multilingue pour certains champs couramment utilisés.
Qu'est-ce que la détection automatique ?
La fonctionnalité de détection automatique est l'une des dernières innovations d'Octoparse version 8. Grâce à cette fonctionnalité, les utilisateurs peuvent facilement démarrer leur extraction en un seul clic. Elle a fait ses preuves en s'adaptant à des pages web aux structures variées, incluant des listes, des tableaux, des défilements infinis, des boutons Charger plus, etc.
Il est maintenant temps de présenter cette fonctionnalité puissante et essentielle à nos utilisateurs.
Comment l'utiliser ?
1. Lancer une tâche avec l'URL du site cible
Pour commencer une tâche, entrez l'URL dans la barre de recherche et cliquez sur Démarrer.
Dans ce tutoriel, nous utiliserons ce site comme exemple : https://www.ebay.com/b/Laptops-Netbooks/175672/bn_1648276.
2. Démarrer l'auto-détection
Une fois que le site web est entièrement chargé dans le navigateur intégré, cliquez sur Autodétection des données de la page Web dans le panneau Conseils pour lancer la détection automatique.
3. Modifier les paramètres
Supprimer les données indésirables
Cliquez sur l’icône de corbeille dans la section Aperçu des données pour supprimer les champs de données indésirables.
Confirmer les paramètres dans le panneau Conseils
Trois options seront affichées dans le panneau Conseils :
Extraire les données de la liste – Cette option est sélectionnée par défaut pour permettre l’extraction des données en liste sur la page.
Paginer pour récupérer plus de pages – Cette option identifie un bouton Page suivante afin de récupérer des données sur plusieurs pages.
Ajouter un défilement de page – Cette option permet de faire défiler la page vers le bas après son chargement.
Vous pouvez vérifier/modifier/désélectionner les paramètres comme vous le souhaitez.
a) Vérifier les paramètres
Cliquez sur le bouton Vérifier sous l'option Paginer pour récupérer plus de pages et le bouton de pagination sera mis en surbrillance.
b) Modifier les paramètres
Cliquez sur le bouton Editer sous l'option dont vous voulez modifier les paramètres.
c) Décocher les paramètres
Une fois que vous n'avez plus besoin de cette option, décochez simplement la case devant celle-ci.
Cliquer sur le bouton Créer un flux de travail
Après avoir confirmé toutes les options, vous pouvez choisir ensuite Créer un flux de travail pour générer les actions.
Renommer les champs
Vous pouvez double-cliquer sur l’en-tête du champ pour le renommer.
4. Actions de collecte supplémentaires
La détection automatique permet de configurer un flux de travail de base avec une pagination et une étape d’extraction de données. Si vous souhaitez cliquer sur chaque lien pour obtenir plus d’informations ou sur le bouton Charger plus, vous pouvez sélectionner les options correspondantes dans le panneau Conseils pour configurer ces actions facilement.
Bouton page suivante- Si Octoparse ne reconnaît pas un bouton de pagination, cliquez sur cette option, puis sélectionnez le bouton manuellement.
Bouton Charger plus – S'il existe un bouton Charger plus sur la page web, vous pouvez sélectionner cette option, puis cliquer sur le bouton pour que le scraper le déclenche automatiquement et charge plus de données à extraire.
Défilement à l'infini – Permet de configurer le mode de défilement et le nombre de répétitions.
Sélectionner l’URL de la sous-page – Si vous souhaitez cliquer sur les liens détectés et extraire plus d’informations depuis les pages de détail, sélectionnez cette option, puis choisissez le lien à suivre.
5. Ajouter manuellement les données manquantes
Il arrive que certains champs de données ne soient pas détectés par la détection automatique. Vous devrez alors les ajouter manuellement. Sélectionnez simplement l’information sur la page web, puis choisissez Texte.
6. Enregistrer les paramètres et démarrer l’extraction
Cliquez d'abord sur le bouton Enregistrer pour sauvegarder tous les paramètres configurés, puis sur Exécuter pour lancer votre tâche, soit sur votre appareil local, soit dans le cloud.