Dans certains cas, vous pouvez disposer d'une liste d'URL ayant une structure similaire (comme une série d'URL de produits), et vous souhaitez en extraire directement les données.
Dans ce tutoriel, nous allons vous présenter une méthode simple et puissante pour extraire des données à partir de plusieurs pages web en utilisant une liste d'URL.
Comment démarrer une tâche avec une liste d'URL
Pour extraire des données à partir d’une liste d’URL, le processus peut généralement être divisé en 3 étapes simples :
Créer une boucle à partir d’une liste d’URL
Sélectionner les champs de données souhaités
Lancer la tâche pour obtenir les données
Vous pouvez utiliser les liens ci-dessous pour suivre l’exemple :
Dans Octoparse, il existe deux façons de créer une boucle à partir d’une liste d’URL. Vous pouvez choisir celle qui convient le mieux à votre cas d’usage.
Méthode 1 : Créer une nouvelle tâche avec une liste d'URLs
Sélectionnez + Nouveau et cliquez sur Tâche personnalisée pour créer une nouvelle tâche.
Ajoutez la liste des URL dans la zone de texte et cliquez sur Sauvegarder.
Après avoir cliqué sur Sauvegarder, l'action de URL en boucle (qui parcourent en boucle chaque URL de la liste) sera automatiquement créées dans le flux de travail. Si vous cliquez sur l'étape URL en boucle, vous pouvez voir que les URL que vous avez saisies ont été ajoutées à l'Élément de boucle.
Une fois les URL enregistrés, la première page s'ouvre automatiquement et vous pouvez sélectionner les données de la page à extraire.
Méthode 2. Créer une boucle Liste d'URLs dans un flux de travail
Cela s'applique au scénario dans lequel vous avez commencé la configuration d'une tâche et vous pouvez directement ajouter une boucle pour les URLs dans la tâche.
Passez à Mode boucle de l'étape Élément de la boucle et sélectionnez Liste d'URL. Cliquez sur le bouton d'édition pour coller la liste d'URL. N'oubliez pas de cliquer sur Appliquer pour enregistrer les paramètres.
Ajoutez une action Ouvrir la page sous l'étape Élément de la boucle, puis sélectionnez Charger les URL dans la boucle et cliquez sur Appliquer pour confirmer.
Une fois les URL enregistrés, la première page s'ouvre automatiquement et vous pouvez sélectionner les données de la page à extraire (comme méthode 1).
Remarque :
1. Parfois, si Octoparse fonctionne trop rapidement, il se peut que certaines pages ne soient pas entièrement chargées avant l’exécution de l’étape d’extraction, ce qui peut entraîner l’absence ou l’incomplétude des données extraites. Pour éviter cela, on peut configurer un Temps d’attente avant l’exécution.
Cliquez sur les paramètres « Options » de l’étape « Extraire les données », puis définissez un temps d’attente avant l’exécution de l’action (2 à 3 secondes suffisent généralement).
2. Si vous souhaitez que les données exportées correspondent à la liste d’URL d’origine que vous avez saisie, vous pouvez ajouter ici l’URL de la page actuelle :
Quand faut-il envisager l’extraction à partir d’une liste d’URL ?
Voilà des scénarios où vous souhaitez commencer la configuration d'une tâche avec une liste d'URLs.
1.Toutes les URLs sont sous le même domaine, avec la même structure de page web (le plus important).
Exemple : J'ai une liste d'URL de produits, et je veux commencer une tâche avec une liste d'URLs directement pour extraire des données de prix mises à jour régulièrement.
2. Certains sites Web utilisent le défilement infini ou le bouton de charger plus pour charger le contenu. Si vous souhaitez collecter des données en cliquant sur chaque URL pour extraire des détails, vous devrez diviser la tâche en deux. La première consiste à charger la page et à extraire les URL, et la seconde à utiliser ces URL extraites pour récolter les informations détaillées.
Exemple : La page de résultats de recherche de Zara utilise le défilement infini pour continuer à charger de nouveaux éléments. Si les données dont vous avez besoin se trouvent sur la page de détail des articles, vous devez définir des temps de défilement et collecter suffisamment d'URLs de produits pour la tâche suivante.
3. Le site Web applique AJAX pour charger le nouveau contenu, ce qui signifie qu'après avoir cliqué sur la première page de produit, le système ne parvient pas à revenir automatiquement à la page de liste (et à cliquer sur le deuxième produit à partir de là). Nous devrons d'abord extraire les URL des pages de détails, puis récupérer les données souhaitées à l'aide de la liste d'URL.
4. Certains sites Web ont généralement tendance à charger les pages assez lentement lors de la pagination, ce qui peut affecter l'extraction de données des tâches programmées. Il est donc préférable de passer directement par les URL des pages pour éviter ce problème.
Comment puis-je savoir si les pages ont la même structure ou pas ?
Si vous récupérez des articles d'actualité d'un site Web, il est fort probable que les pages des articles partagent la même structure de page, par exemple :
Un autre exemple est celui de Google maps. Chaque page d'entreprise est comme ceci :
2. Puis-je utiliser des URL qui n’ont pas la même structure de page ?
Malheureusement, seules les URL partageant la même structure de page peuvent être utilisées avec le mode « Liste d’URL ».
Pour garantir une extraction cohérente et précise, il est nécessaire que les pages aient la même mise en page.
3. Y a-t-il une limite au nombre d’URL que je peux ajouter en une seule fois ?
Oui. Nous recommandons de ne pas dépasser 10 000 URL si vous les copiez-collez directement dans Octoparse.
Cependant, en utilisant la fonction d’importation par lot (Batch URL input), vous pouvez ajouter jusqu’à 1 million d’URL.
4. Octoparse peut-il collecter et ajouter automatiquement des URL ?
Oui. Octoparse peut importer des URL à partir d’une autre tâche.
Vous pouvez utiliser une tâche pour extraire les URL, puis en configurer une autre pour les utiliser.
L’API Octoparse permet également de mettre à jour la liste d’URL sans avoir à ouvrir l’application.