Stai leggendo una guida tutorial per l'ultima versione di Octoparse. Se utilizzi una versione vecchia di Octoparse, ti consigliamo vivamente di aggiornarla perché è una versione più veloce, più semplice e più robusta! Scarica e aggiorna qui!
C'è la possibilità di dati mancanti nell'estrazione nel cloud nei seguenti casi:
1. Le attività sono divisibili e funzionano troppo velocemente, quindi alcuni dati sono stati saltati
Le attività con modalità loop "Elenco fisso", "Elenco di URL" e "Elenco di testo" sono divisibili in Octoparse. Le attività principali saranno divise in sottoattività eseguite con più nodi cloud contemporaneamente. Quindi, in questo caso, ogni passaggio dell'attività funzionerà molto velocemente; quindi alcune pagine potrebbero non essere caricate completamente prima di passare al passaggio successivo.
Per garantire che la pagina Web venga caricata completamente nel Cloud:
1. Aumentare il timeout per il passaggio Vai alla pagina Web
2. Impostare il tempo di attesa per tutti i passaggi
Fare clic su Opzioni
Spuntare la casella Attendi prima dell'azione
3. Impostare un elemento di ancoraggio da trovare prima dell'azione per garantire che l'estrazione inizi solo dopo che è stato trovato un elemento specifico. È possibile scegliere l'XPath di qualsiasi elemento dai campi desiderati.
Spuntare la casella Attendi finché non viene visualizzato l'elemento designato
Impostare un XPath corrispondente per l'elemento e modificare il tempo di attesa in 30s.
Nota: se vuoi saperne di più su Attendi prima dell'azione, controlla qui.
2. Il sito web di destinazione è multiregionale
Un sito web multiregionale potrebbe avere strutture di pagina diverse per il contenuto fornito ai visitatori di diversi paesi. Quando un'attività è impostata per essere eseguita nel cloud, viene eseguita con il nostro IP basato in America. In questo caso, per le attività destinate a siti web al di fuori dell'America, alcuni dati potrebbero essere saltati poiché non possono essere trovati sul sito web aperto nel cloud.
Per identificare se un sito web è multiregionale:
Testa l'attività con l'estrazione locale. Se non mancano dati come nell'estrazione cloud, è molto probabile che il sito web sia multiregionale. In questo caso, poiché il contenuto di destinazione può essere trovato solo quando si apre il sito web con il tuo IP, ti consigliamo di usare l'estrazione locale per ottenere i dati.
Estrai l'HTML esterno dell'intera pagina. Controllando l'HTML estratto, potresti scoprire cosa ha causato la mancanza di dati nel prompt nel codice sorgente, ad esempio "Accesso negato".