Vai al contenuto principale

Cos'è l'estrazione nel cloud?

Aggiornato più di un anno fa

Octoparse offre una piattaforma cloud potente per utenti premium (piano standard, professionale ed enterprise) che si permette di eseguire attività di scraping 24/7.

Quando un'attività viene eseguita nel cloud, sfrutta più server utilizzando gli IP di Octoparse. È possibile chiudere l'app o anche il computer mentre l'attività è in esecuzione. Non è necessario preoccuparsi delle limitazioni hardware. I dati estratti verranno salvati nel cloud e sarà possibile accedervi in qualsiasi momento.

La pianificazione delle attività è supportata anche dall'estrazione Octoparse Cloud. Per recuperare le informazioni più aggiornate, puoi pianificare l'esecuzione dell'attività con la frequenza necessaria.


1. Esecuzione della attività nel cloud

Dopo aver completato la configurazione del task di scraping, clicca su Run e scegliere Standard Mode o Boost Mode sotto Run in the Cloud per eseguire l'estrazione nel cloud.

Una volta impostata l'esecuzione nel cloud, il suo stato cambierà in "In esecuzione" nella dashboard.


2. Esecuzione di attività a lotti utilizzando l'estrazione nel cloud

Seleziona tutte le attività da eseguire e clicca su Start Cloud Run, i task verranno eseguiti insieme nel cloud.


3. Impostazioni dell'estrazione nel cloud

L'estrazione nel cloud Octoparse consente di eseguire più attività contemporaneamente.

Con il piano standard puoi eseguire fino a 6 attività simultanee nel cloud (fino a 6 server cloud disponibili) mentre con il piano professionale si può eseguire fino a 20 attività simultanee (fino a 20 server cloud disponibili). Per impostare il numero massimo di attività in esecuzione in parallelo, scegli il numero desiderato dalle opzioni a discesa:

SUGGERIMENTI:

  • Come sono le prestazioni di Cloud Extraction?

L'estrazione dei dati nel cloud può essere molto più rapida rispetto all'esecuzione delle attività in locale, dato che l'attività è divisibile (scopri di più su quando un'attività è divisibile).

Un'attività divisibile può essere suddivisa in più sottoattività che possono essere eseguite su più server contemporaneamente, rendendo così l'estrazione più rapida.

  • Posso eseguire più attività rispetto al numero massimo consentito?

Si, si può fare. Ma alcune attività verranno messe in coda finché non saranno disponibili più server cloud al completamento delle attività precedenti.


4. Pianificazione di un'estrazione nel cloud

4.1 di una singola attività

Una volta terminata la configurazione dell'attività, fai clic su Run e seleziona Schedule Cloud Runs.

Scegli la frequenza e personalizza l'ora e la data in base alle tue esigenze. Clicca su Schedule ON e l'attività verrà eseguita come pianificato.

I tempi per la prossima corsa possono essere trovati sul dashboard nella colonna Next Run.

7.png

4.2 di un gruppo di attività

Vai alla dashboard, passa alla visualizzazione Task Group, seleziona il gruppo di attività che vuoi e fai clic sull'icona dell'orologio per la pianificazione del gruppo di attività.


5. Domande frequenti

5.1. Qual è il fuso orario predefinito per la piattaforma Octoparse Cloud?

Per impostazione predefinita, l'ora di esecuzione successiva visualizzata sul dashboard si basa sul fuso orario locale (in base al tuo sistema operativo). Tuttavia, se hai creato l'attività per estrarre data e orario attuali nel cloud, l'ora e la data estratte saranno in UTC±00:00 indipendentemente dalla tua posizione effettiva.

Scopri su come convertire il fuso orario dei dati nel tutorial: Come convertire il campo dell'ora corrente in un altro fuso orario?

5.2. Perché l'attività riceve dati duplicati quando viene eseguita più volte?

mceclip0.png

Octoparse memorizzerà i dati raccolti da tutte le esecuzione insieme e riconoscerà i duplicati, i quali verranno eliminati automaticamente dal cloud. Quando esegui un'attività per la seconda volta, manterrà solo i nuovi dati.

Se desideri conservare tutti i duplicati, consulta questo tutorial: Come posso mantenere i duplicati nelle esecuzioni Cloud?

5.3. Cosa sono le esecuzioni nel cloud simultanee?

Le esecuzioni nel cloud simultanee indicano il numero massimo di attività che puoi eseguire contemporaneamente. Se si è abbonato il piano Standard, si può eseguire al massimo 6 estrazioni simultanee nel cloud perché si è offerto fino a 6 server cloud (un'attività richiede almeno un server per essere eseguita).

Tieni presente che a volte potresti vedere le tue attività in coda perché un'attività divisibile potrebbe occupare più o tutti i server nel tuo account. In questo caso, le altre attività devono attendere che la risorsa cloud le esegua. Scopri di più sulla suddivisione delle attività: come posso recuperare i dati più velocemente nel cloud?

5.4. Cosa influenza il numero di esecuzioni simultanee?

I fattori principali che influenzano le tue esecuzioni simultanee sono:

1) il numero di server cloud di cui disponi.

2) il numero di server occupati dalle tue attività in esecuzione

Ad esempio, se hai abbonato il piano standard, possiedi fino a 6 server cloud. Se hai 6 attività e queste occupano solo 1 server ciascuna durante l'esecuzione, vedrai 6 attività in esecuzione contemporaneamente.

Se una delle attività occupa 2 server (è suddivisa in 2 o più attività secondarie), vedrai solo 4 attività in esecuzione contemporaneamente. Se l'attività occupa 6 server, vedrai solo un'attività in esecuzione.

Hai ricevuto la risposta alla tua domanda?