Vai al contenuto principale

Come rimuovere duplicati

Aggiornato più di un anno fa

La presenza di duplicati nel set di dati può essere dovuta al fatto che i siti web contengono dati duplicati oppure l'attività potrebbe essere stata impostata per acquisire gli stessi dati due o più volte. Se si vuole salvare solo i dati unici, esistono due modi per rimuovere i duplicati a seconda dei requisiti dei dati:

1. Rimuovere i duplicati quando tutte le linee dati sono uguali (impostazione predefinita)

Una volta completata l'esecuzione, Octoparse tratta le linee dati come duplicati quando le intere linee sono identiche (tutti i campi dati sono uguali) per impostazione predefinita. Puoi rimuovere i duplicati e mantenere solo le linee univoche.

Esempio: le righe n. 1 e n. 4 sotto hanno gli stessi valori per ciascun campo dati, quindi sono duplicati. Dopo la deduplicazione, Octoparse manterrà estratta solo la prima riga di dati, che in questo caso è la riga n. 1.

mceclip1.png


2. Rimuovere i duplicati quando i campi dati selezionati sono gli stessi

Quando crei il flusso di lavoro dell'attività, puoi personalizzare ulteriormente l'attività per rimuovere le righe dati che condividono gli stessi valori per uno o più campi dati. Le righe dati verranno trattate come duplicati purché i valori dei campi dati selezionati siano gli stessi. Altri campi dati non selezionati non verranno presi in considerazione.

Esempio 1: se prendiamo "Field2" da confrontare per la deduplicazione dei dati, la riga n. 1, la riga n. 2 e la riga n. 4 avranno tutte lo stesso valore per "Field2". In questo caso, queste linee di dati verranno considerate duplicate. Dopo la deduplicazione, Octoparse manterrà estratta solo la prima riga di dati, che in questo caso è la riga n. 1, ed eliminerà la riga n. 2 e la riga n. 4.

mceclip2.png

Esempio 2: se scegliamo "Field3" e "Field4" da confrontare per la deduplicazione dei dati, la riga n. 1 e la riga n. 4 avranno entrambe gli stessi valori rispettivamente per "Field3" e "Field4". In questo caso, la riga n. 1 e la riga n. 4 verranno considerate duplicate. Dopo la deduplicazione, Octoparse manterrà estratta solo la prima riga di dati, che in questo caso è la riga n. 1, ed eliminerà automaticamente la riga n. 4.

mceclip3.png

Si può seguire i passaggi seguenti per personalizzare le impostazioni di deduplicazione:

  • Impostare l'attività e i campi dati che desideri raccogliere

  • Fare clic sull'icona nell'angolo in alto a destra della sezione Anteprima dati

11.png

  • Selezionare i campi dati che desideri confrontare per la deduplicazione. Dopo la selezione, fare clic su Applica per salvare le impostazioni.

10.png


Suggerimenti:

Per le esecuzioni nel cloud, solo i dati trattati con la stessa impostazione di deduplicazione verranno confrontati e deduplicati su base continua.

Ad esempio, supponiamo che tu imposti la prima impostazione di deduplicazione come A (ad esempio, seleziona "Campo1" per confrontare) e ottieni il primo bagno di dati cloud.

Quindi, ritorni alla tua attività e modifichi l'impostazione di deduplicazione su B (ad esempio, seleziona "Field2" per confrontare) e ottieni il 2° lotto di dati cloud. Questo secondo lotto di dati non verrà confrontato con il primo lotto di dati per la deduplicazione.

Successivamente, se modifichi nuovamente l'impostazione su A (ad esempio, seleziona "Field1" per confrontare) e ottieni il terzo lotto di dati Cloud. Questo terzo lotto di dati verrà confrontato e deduplicato rispetto al primo lotto di dati Cloud.

Hai ricevuto la risposta alla tua domanda?