I duplicati in Octoparse si riferiscono a linee di dati identiche in tutti i campi. Puoi eliminare i duplicati durante l'esportazione dei dati se ce ne sono solo pochi.
Tuttavia, ottenere solo un piccolo numero di dati validi con molti duplicati può essere frustrante. In questo tutorial FAQ, ti aiuteremo a risolvere i problemi di duplicazione.
Errore 1: Quando si raschiano più pagine, Octoparse torna alle pagine precedentemente raschiate o continua a raschiare l'ultima pagina.
L'XPath di paginazione generato automaticamente potrebbe non funzionare sempre correttamente. Se trovi duplicati in Octoparse su diverse pagine ripetutamente, dovrai apportare alcune modifiche.
Soluzione: Modifica l'XPath della paginazione per assicurarti che localizzi con precisione il pulsante della pagina successiva.
Clicca sull'Impaginazione
Inserisci il nuovo XPath e clicca su Applica per salvare
Suggerimento: Scopri come scrivere un XPath qui: Cos'è XPath e come usarlo in Octoparse.
Errore 2: Quando si raschiano più pagine, il timeout AJAX per la paginazione è troppo breve per caricare la pagina successiva, e Octoparse continua a raschiare i dati della pagina corrente.
Per le pagine caricate con AJAX, se il timeout non è impostato abbastanza lungo, la pagina successiva non può essere caricata e Octoparse raschierebbe nuovamente la pagina corrente, producendo dei duplicati.
Soluzione: Estendi il timeout AJAX per renderlo sufficientemente lungo da consentire il caricamento della pagina.
Clicca su Clicca per paginare
Seleziona un timeout AJAX più lungo
Errore 3: Quando si raschia un elenco di elementi, Octoparse raschia ripetutamente solo la prima riga di dati o un campo dati è lo stesso in tutte le linee.
Quando si scorre un elenco di elementi per ottenere dati, Octoparse potrebbe continuare a raschiare da un solo elemento. Oppure altri campi sono raccolti correttamente da ogni elemento, ma uno o due campi rimangono fissi.
Questo perché l'azione Estrai Dati non è associata all'azione Loop Item. È necessario selezionare due opzioni per associare Estrai Dati e Loop Item:
Estrai dati nel loop nelle impostazioni di Estrai Dati
XPath relativo nelle impostazioni del campo dati
L'associazione delle opzioni "Estrai Dati" e "Loop Item" garantisce che Octoparse raschi i dati da ciascun elemento nel loop.
Soluzione 1: Ricrea i campi
Dopo aver selezionato l'opzione Estrai dati nel loop, clicca su Loop Item nel workflow, e poi su Estrai Dati
Il primo elemento sarà evidenziato e potrai scegliere gli elementi dall'area evidenziata per estrarre il testo
Soluzione 2: Modifica direttamente l'XPath dei campi
Clicca su Estrai Dati
Clicca su Altro e seleziona XPath customizzato
Seleziona XPath relativo e inserisci l'XPath corretto
Metodo 1: Clicca su Estrai dati, poi Personalizza XPath
Metodo 2: Clicca su Estrai dati, passa alla visualizzazione verticale e fai doppio clic su ogni campo per personalizzare l'XPath, il che è più conveniente se devi modificare diversi XPaths.