Quando si eseguono attività nel cloud, l'attività viene suddivisa in più sottoattività. Più sottoattività vengono eseguite nel cloud da più server contemporaneamente. I dati estratti dalle sottoattività vengono trasferiti a noi contemporaneamente. Ecco perché i dati non sono in ordine.
Conoscendo il principio di funzionamento dell'estrazione dei dati, possiamo quindi risolvere il problema.
Disattivare la suddivisione di attività: eseguire tutte le attività con un indirizzo IP
Fare clic su Impostazioni in alto a destra dell'interfaccia Octoparse
Andare su Esecuzioni
Spuntare la casella Disattiva la divisione di attività
Dopo aver selezionato questa opzione, l'attività non verrà suddivisa in sottoattività. Pertanto, i dati saranno nello stesso ordine dell'esecuzione locale. Se l'ordine risulta ancora diverso, è possibile provare a impostare un tempo di attesa per l'azione "Estrai dati".
Nota: L'opzione rallenterà la velocità di scraping poiché la velocità del Cloud dipende da quante sottoattività sono in esecuzione contemporaneamente.