Vai al contenuto principale

Perché estrapolo tanti duplicati?

Aggiornato più di un anno fa

I duplicati in Octoparse si riferiscono a linee di dati identiche in tutti i campi. Puoi eliminare i duplicati durante l'esportazione dei dati se ce ne sono solo pochi.

Tuttavia, ottenere solo un piccolo numero di dati validi con molti duplicati può essere frustrante. In questo tutorial FAQ, ti aiuteremo a risolvere i problemi di duplicazione.

Errore 1: Quando si raschiano più pagine, Octoparse torna alle pagine precedentemente raschiate o continua a raschiare l'ultima pagina.

L'XPath di paginazione generato automaticamente potrebbe non funzionare sempre correttamente. Se trovi duplicati in Octoparse su diverse pagine ripetutamente, dovrai apportare alcune modifiche.

Soluzione: Modifica l'XPath della paginazione per assicurarti che localizzi con precisione il pulsante della pagina successiva.

  1. Clicca sull'Impaginazione

  2. Inserisci il nuovo XPath e clicca su Applica per salvare

Suggerimento: Scopri come scrivere un XPath qui: Cos'è XPath e come usarlo in Octoparse.


Errore 2: Quando si raschiano più pagine, il timeout AJAX per la paginazione è troppo breve per caricare la pagina successiva, e Octoparse continua a raschiare i dati della pagina corrente.

Per le pagine caricate con AJAX, se il timeout non è impostato abbastanza lungo, la pagina successiva non può essere caricata e Octoparse raschierebbe nuovamente la pagina corrente, producendo dei duplicati.

Soluzione: Estendi il timeout AJAX per renderlo sufficientemente lungo da consentire il caricamento della pagina.

  1. Clicca su Clicca per paginare

  2. Seleziona un timeout AJAX più lungo


Errore 3: Quando si raschia un elenco di elementi, Octoparse raschia ripetutamente solo la prima riga di dati o un campo dati è lo stesso in tutte le linee.

Quando si scorre un elenco di elementi per ottenere dati, Octoparse potrebbe continuare a raschiare da un solo elemento. Oppure altri campi sono raccolti correttamente da ogni elemento, ma uno o due campi rimangono fissi.

Questo perché l'azione Estrai Dati non è associata all'azione Loop Item. È necessario selezionare due opzioni per associare Estrai Dati e Loop Item:

  • Estrai dati nel loop nelle impostazioni di Estrai Dati

  • XPath relativo nelle impostazioni del campo dati

L'associazione delle opzioni "Estrai Dati" e "Loop Item" garantisce che Octoparse raschi i dati da ciascun elemento nel loop.

Soluzione 1: Ricrea i campi

  1. Dopo aver selezionato l'opzione Estrai dati nel loop, clicca su Loop Item nel workflow, e poi su Estrai Dati

  2. Il primo elemento sarà evidenziato e potrai scegliere gli elementi dall'area evidenziata per estrarre il testo

re-create_fields.gif

Soluzione 2: Modifica direttamente l'XPath dei campi

  1. Clicca su Estrai Dati

  2. Clicca su Altro e seleziona XPath customizzato

  3. Seleziona XPath relativo e inserisci l'XPath corretto

Metodo 1: Clicca su Estrai dati, poi Personalizza XPath

Metodo 2: Clicca su Estrai dati, passa alla visualizzazione verticale e fai doppio clic su ogni campo per personalizzare l'XPath, il che è più conveniente se devi modificare diversi XPaths.

Hai ricevuto la risposta alla tua domanda?