Passer au contenu principal

Qu’est-ce que l’extraction dans le cloud ?

Mis à jour il y a plus d’une semaine

Octoparse propose une plateforme Cloud puissante pour les utilisateurs premium (Standard, Professional et Enterprise), permettant d’exécuter vos tâches 24h/24 et 7j/7.

Lorsqu’une tâche est exécutée avec l’extraction dans le cloud, elle utilise plusieurs nœuds et les adresses IP d’Octoparse. Vous pouvez fermer l’application ou même votre ordinateur pendant que la tâche s’exécute. Inutile de vous soucier des limitations matérielles. Les données extraites sont enregistrées dans le cloud et peuvent être consultées à tout moment.

L’extraction dans le cloud d’Octoparse prend également en charge la programmation des tâches. Pour obtenir les informations les plus récentes, vous pouvez planifier l’exécution de votre tâche aussi fréquemment que nécessaire.


1. Exécuter votre tâche avec l’extraction dans le cloud :

Une fois votre tâche configurée, cliquez sur Exécuter et sélectionnez Mode Standard ou Mode Boost sous Exécuter dans le cloud pour lancer l’exécution de votre tâche dans le cloud.

Une fois qu’une tâche est configurée pour s’exécuter dans le cloud, son statut dans la liste des tâches passera à En cours d’exécution.


2. Exécuter plusieurs tâches en lot avec l’extraction Cloud :

Sélectionnez les tâches que vous souhaitez exécuter, cliquez sur Démarrer l’exécution Cloud, et elles seront lancées simultanément dans le Cloud.


3. Paramètres de l’Extraction Cloud :

L’extraction dans le Cloud avec Octoparse permet d’exécuter plusieurs tâches simultanément.

Avec le Forfait Standard, vous pouvez exécuter jusqu’à 6 tâches en parallèle dans le Cloud (6 nœuds Cloud disponibles).
Avec le Forfait Professionnel, vous pouvez exécuter jusqu’à 20 tâches en parallèle (20 nœuds Cloud disponibles).

Pour définir le nombre maximum de tâches exécutées en parallèle, cliquez et sélectionnez le nombre souhaité dans le menu déroulant :

Astuces :

  • Quelle est la performance de l’extraction Cloud ?
    L’extraction de données dans le Cloud peut être beaucoup plus rapide que l’exécution locale, à condition que la tâche soit fractionnable (découvrez dans quels cas une tâche est divisible). Une tâche divisible peut être divisée en plusieurs sous-tâches pouvant s’exécuter simultanément sur plusieurs nœuds, ce qui accélère considérablement l’extraction.

  • Puis-je exécuter plus de tâches que le nombre maximal de nœuds disponibles ?
    Oui, c’est possible. Cependant, certaines tâches seront placées en file d’attente jusqu’à ce que des nœuds Cloud se libèrent une fois les tâches précédentes terminées.


4. Programmer une exécution dans le Cloud :

4.1. Pour une tâche unique

Une fois que vous avez terminé la configuration de votre tâche, cliquez sur Exécuter puis sélectionnez Paramètres de l'exécution dans le Cloud.

Cliquez sur « Éditer » dans l’onglet Programmation.

Sélectionnez la fréquence et personnalisez l’heure et la date selon vos besoins. Activez l’option « Démarrer » et la tâche sera exécutée automatiquement selon la programmation définie.

L'heure de la prochaine exécution peut être trouvée sur le tableau de bord dans la colonne Prochaine exécution.

Si vous souhaitez annuler une exécution programmée, cliquez à nouveau pour ouvrir le panneau, puis sélectionnez « Arrêter ».

4.2. Pour un groupe de tâches

Accédez à votre liste de tâches, passez à la vue Groupe de tâches, sélectionnez le groupe de tâches cible, puis cliquez sur l’icône en forme d’horloge pour définir une programmation pour ce groupe.


5. Questions fréquemment posées

5.1. Quel est le fuseau horaire par défaut de la plateforme Cloud d’Octoparse ?

L’heure de la prochaine exécution affichée dans la liste des tâches est basée par défaut sur le fuseau horaire local de votre système d’exploitation. Cependant, si vous avez configuré la tâche pour extraire la « date et l’heure actuelles » dans le Cloud, les données extraites seront indiquées en UTC±00:00, quel que soit votre emplacement réel.

Vous pouvez convertir le fuseau horaire des données en suivant ce tutoriel : Convertir le champ de l’heure actuelle dans un autre fuseau horaire.

5.2. Pourquoi la tâche récupère-t-elle des données en double lorsqu’elle s’exécute plusieurs fois ?

Octoparse enregistre les données extraites de toutes les exécutions dans un seul ensemble et détecte automatiquement les doublons. Les doublons sont supprimés automatiquement dans le Cloud.

Par exemple, lors de la première exécution, Octoparse extrait 100 lignes sans doublon. En consultant toutes les données de la tâche, vous verrez donc 100 lignes.

Si le site ajoute 5 nouvelles lignes de données lors de la deuxième exécution, la tâche extraira 105 lignes (dont 100 doublons).
Seules les 5 nouvelles lignes seront conservées, tandis que les 100 doublons seront supprimés.

Ainsi, si vous consultez l’ensemble des données (issues de la première et de la deuxième exécution), vous verrez 105 lignes au total.
Mais si vous consultez uniquement les données du deuxième lot d’exécution, vous ne trouverez que 5 lignes.

Si vous souhaitez conserver tous les doublons, veuillez consulter ce tutoriel : Comment conserver les doublons dans les exécutions Cloud ?

5.3. Qu’est-ce que les exécutions Cloud simultanées ?

Une exécution Cloud simultanée correspond au nombre maximum de tâches que vous pouvez exécuter en même temps.


Si vous êtes sur le Forfait Standard, vous pouvez exécuter au maximum 6 extractions simultanées dans le Cloud, car vous disposez de 6 nœuds Cloud (une tâche nécessite au moins un nœud pour s’exécuter).

Veuillez noter que vous pourriez parfois voir vos tâches en file d’attente, car une tâche fractionnable peut occuper plusieurs ou tous les nœuds de votre compte.
Lorsqu’une tâche occupe tous les nœuds, les autres tâches doivent attendre que des ressources Cloud se libèrent pour s’exécuter.

Pour en savoir plus sur la répartition des tâches, consultez ce tutoriel : Comment extraire des données plus rapidement dans le Cloud ?

5.4. Quels facteurs influencent le nombre d’exécutions simultanées ?

Les principaux facteurs qui influencent vos exécutions simultanées sont :

  1. le nombre de nœuds Cloud dont vous disposez

  2. le nombre de nœuds occupés par vos tâches en cours d’exécution.

Par exemple, si vous êtes sur le Forfait Standard, vous disposez de 6 nœuds Cloud.
Si vous avez 6 tâches, et que chacune n’occupe qu’un nœud lors de son exécution, vous verrez 6 tâches s’exécuter simultanément.

Si l’une des tâches occupe 2 nœuds (elle est fractionnée en 2 sous-tâches ou plus), vous ne verrez alors que 4 tâches s’exécuter en même temps.
Si la tâche occupe 6 nœuds, alors une seule tâche s’exécutera à la fois.

Avez-vous trouvé la réponse à votre question ?