Passer au contenu principal

Qu’est-ce qu’une tâche dans Octoparse ?

Mis à jour il y a plus de 3 mois

Tout ce que vous faites dans Octoparse commence par la création d’une tâche. Une tâche d’extraction dans Octoparse est aussi appelée « bot », « agent » ou « crawler ». Quel que soit le nom utilisé, une tâche est essentiellement un ensemble de configurations que le programme doit suivre. Une tâche scrape généralement une page ou plusieurs pages ayant le même design.

Créer une tâche dans Octoparse est simple. Tout d’abord, chargez votre page cible dans Octoparse et cliquez pour sélectionner les données que vous souhaitez récupérer. Une fois la sélection terminée, un flux de travail est automatiquement généré en fonction de vos interactions avec la page web, par exemple si vous avez cliqué sur un bouton, survolé un menu de navigation, ou sélectionné des données sur la page.

Octoparse simule les actions réelles de navigation — clics, recherches, pagination, etc. — et atteint enfin les données cibles qu’il récupère, en suivant les étapes du flux de travail. C’est ainsi qu’Octoparse fonctionne pour extraire des données de n’importe quelle page web.


Tâche personnalisée vs. Tâche modèle

Il existe deux façons de créer une tâche d’extraction dans Octoparse. Vous pouvez créer une tâche en choisissant « tâche personnalisée » ou sélectionner directement un modèle.

Tâche personnalisée

Avec une tâche personnalisée, vous pouvez configurer votre propre tâche d’extraction comme vous le souhaitez : effectuer une recherche par mots-clés, vous connecter à un compte, cliquer sur un menu déroulant, et bien plus encore.

En résumé, la tâche personnalisée vous offre tout ce dont vous avez besoin pour extraire des données depuis n’importe quel site web.

Tâche modèle

Contrairement à la tâche personnalisée, la tâche modèle propose un grand nombre de modèles d’extraction prédéfinis pour certains des sites web les plus populaires.

Ces tâches sont préconstruites, ce qui signifie que vous n’avez qu’à saisir certaines variables, comme le mot-clé de recherche ou l’URL de la page cible, pour récupérer un ensemble de données prédéfini à partir du site en question.

Prêt à mettre la main sur des données ?
Suivez les leçons d’introduction pour être guidé étape par étape dans la création de votre première tâche.

Note :

  1. L’interface de la version 7 et de la version 8 est différente. La fonctionnalité de détection automatique est uniquement disponible dans la version 8.

  2. Vous pouvez utiliser cette fonctionnalité de détection automatique pour générer un flux de travail de base, puis le modifier ou l’optimiser selon vos propres besoins.

  3. En général, pour extraire des données d’un site web (ou d’URLs appartenant au même domaine), on utilise une seule tâche/un seul crawler, car une tâche ne peut extraire des données que depuis des pages ayant une structure similaire.
    Cependant, vous pouvez essayer d’extraire des adresses e-mail depuis une liste de sites web différents à l’aide d’un seul crawler. Voici des tutoriels à ce sujet pour votre référence :
    Utilisez XPath pour localiser les adresses e-mail dans les liens "mailto" de n'importe quel site web


Astuces pour gérer vos tâches

1. Modification des informations de la tâche

Le nom de la tâche est automatiquement généré lorsque vous enregistrez l’URL saisie.

  • Pour modifier le nom de la tâche, cliquez sur la zone de texte située au-dessus du panneau de flux de travail, puis saisissez un nouveau nom.

  • Ou cliquez sur le bouton « Modifier » pour renommer une tâche enregistrée.

2. Autres actions pour la gestion des tâches

Actions rapides :

  • « Dupliquer » – Répliquer une tâche

  • « Supprimer » – Supprimer une tâche

D'autres actions à découvrir :

Actions

Exporter

Exporter le fichier de tâche.
Le fichier de tâche peut être enregistré sur votre appareil ou envoyé à l’équipe d’assistance pour analyse.

Partager la tâche

La tâche génère un lien partageable.
En partageant ce lien, la personne pourra télécharger et recevoir votre tâche.

ID de tâche (API)

ID de la tâche.
Peut être utilisé dans les requêtes API.

Exécution en local

Options pour l’exécution sur votre appareil : Démarrer / Arrêter, ou Programmer.

Exécution Cloud

Options pour l’exécution dans le Cloud : Démarrer / Arrêter, Programmer, ou Historique d’exécution cloud.

Afficher les données

Afficher les données Cloud ou Locales.

Déplacer vers un groupe

Déplacer la tâche vers un autre groupe.

Paramètres des tâches

Accéde à l’interface de configuration des paramètres de la tâches.

Pour gérer les tâches en lot :

  • Sélectionnez plusieurs tâches (cela fonctionne également pour une seule tâche).

  • Choisissez parmi les options disponibles pour effectuer des opérations en batch.

Avez-vous trouvé la réponse à votre question ?