Passer au contenu principal

Qu'est-ce qu'une tâche personnalisée

Mis à jour il y a plus de 3 mois

Il existe deux types de tâches dans Octoparse :

Il est toujours recommandé, avant de commencer une tâche de collecte de données, d’effectuer une recherche afin de vérifier si un modèle prêt à l’emploi est disponible. Si aucun modèle n’est disponible pour le site web ciblé, vous pouvez alors créer une tâche personnalisée.


Comment configurer une tâche personnalisée ?

Il existe deux façons de démarrer rapidement une nouvelle tâche en utilisant une tâche personnalisée :

Méthode 1

Collez l’URL du site cible dans la zone de l'entrée, puis cliquez sur Démarrer (ou appuyez sur Entrée).

Méthode 2

Dans le menu latéral, survolez l’option Nouveau et sélectionnez Tâche personnalisée.


L’interface de tâche personnalisée

Navigateur intégré : Une fois que vous avez saisi l’URL d’une page cible, celle-ci se charge dans le navigateur intégré d’Octoparse. Vous pouvez naviguer sur le site en mode Navigation ou cliquer pour extraire les données dont vous avez besoin en mode Sélection.

Flux de travail (Workflow) : Lorsque vous interagissez avec la page web, comme ouvrir une page ou cliquer sur un élément/bouton, tout le processus est automatiquement défini sous forme de workflow.

Panneau de conseils : Octoparse utilise des astuces intelligentes pour « dialoguer » avec vous pendant l’extraction et vous guider dans la création de la tâche.

Aperçu des données : Vous pouvez visualiser un aperçu des données sélectionnées. Il est également possible de renommer les champs de données ou de supprimer ceux qui ne sont pas nécessaires.


Comment utiliser la tâche personnalisée pour créer des tâches manuellement

Pour créer une tâche manuellement avec la fonction Tâche personnalisée, il suffit de cliquer sur les données ciblées sur la page web. Suivez les conseils affichés dans le panneau de conseils pour avancer dans la création de la tâche. Les étapes générales sont simples :

Sélectionnez les données dont vous avez besoin sur la page web >> Suivez les instructions fournies dans le panneau Conseils >> Vérifiez votre flux de travail >> Lancez la tâche pour récupérer les données

Compte tenu de la nature d’internet, les pages web changent constamment, et les besoins en données peuvent varier d’une personne à l’autre. La tâche personnalisée est conçue pour offrir la flexibilité et la polyvalence nécessaires pour répondre à tous types de besoins en extraction, tout en restant accessible aux non-codeurs grâce à un guidage pas à pas dans les astuces d’actions.


1. Sélectionnez vos données cibles sur la page web

Dans le navigateur intégré, utilisez de simples clics pour sélectionner les données que vous souhaitez extraire de la page web. En déplaçant votre curseur sur la page, Octoparse tente de « comprendre » ce que vous souhaitez récupérer en mettant en surbrillance les éléments autour de votre curseur. Vous pouvez ajuster légèrement le déplacement du curseur si la zone mise en surbrillance ne correspond pas exactement à ce que vous voulez extraire.

Une fois que les données souhaitées sont surlignées en bleu, cliquez pour confirmer la sélection. L’élément sélectionné doit alors être surligné en vert, indiquant que la sélection a réussi.

Répétez cette opération si vous souhaitez extraire plusieurs éléments sur la même page.

2. Suivez les instructions fournies dans le panneau de conseils

Octoparse essaie de vous guider tout au long de la création de la tâche en vous proposant toutes les étapes suivantes possibles dans le panneau de conseils. C’est la manière dont Octoparse « vous parle ».

Chaque fois que vous sélectionnez un élément, le panneau de conseils s’affiche avec plusieurs options parmi lesquelles vous pouvez choisir. Il vous suffit de suivre les instructions fournies et de choisir comment vous souhaitez procéder avec les données sélectionnées. Par exemple, si vous souhaitez extraire le texte des éléments sélectionnés, vous pouvez choisir « Texte » ; ou si vous souhaitez cliquer sur l’élément sélectionné pour accéder à la page liée, vous pouvez choisir « Cliquer sur l’élément ».

Voici les actions les plus fréquemment utilisées :

  • Texte : extraire le texte de l’élément de la page sélectionné

  • Cliquer sur l’élément : cliquer sur l’élément de la page sélectionné

  • InnerHtml & OuterHtml : extraire la chaîne du code source de l’élément sélectionné

  • Cliquer en boucle : cliquer plusieurs fois sur l’élément sélectionné (similaire à « cliquer page suivante en boucle»)

  • Lien : extraire l’URL du lien sélectionné (lorsqu’un lien est sélectionné)

  • URL de l’image : extraire l’URL de l’image (lorsqu’une image est sélectionnée)

Astuce :

  • Dans les cas où il est difficile de cibler un élément avec le curseur, vous pouvez utiliser les balises HTML situées en bas du panneau des astuces pour affiner la sélection.

  • Le bouton « Étendre la sélection »

    à la fin peut être utilisé pour élargir la sélection actuelle afin d’inclure la balise HTML englobante.

    Par exemple, si vous souhaitez extraire toute la partie entourant l’élément sélectionné, vous pouvez cliquer plusieurs fois sur ce bouton jusqu’à ce que l’ensemble de la section souhaitée soit surligné en vert.

3. Vérifiez le flux de travail

Au fur et à mesure que vous construisez la tâche de scraping, Octoparse crée simultanément un flux de travail basé sur vos interactions avec la page web ainsi que sur les suggestions du panneau des conseils.

Exemple de flux de travail :

Astuce : Consultez ce tutoriel pour en savoir plus sur la façon de tester votre flux de travail étape par étape : Leçon 4 : Tester votre tâche

4. Exécuter la tâche

Maintenant que vous avez terminé la création et le test de votre tâche, vous pouvez l’exécuter en cliquant sur le bouton Exécuter.

Vous avez le choix entre l’exécuter en local sur votre appareil ou dans le Cloud.

Avez-vous trouvé la réponse à votre question ?