Duplikate im Datensatz können darauf zurückzuführen sein, dass die Websites selbst doppelte Daten enthalten, oder die Aufgabe könnte so eingerichtet worden sein, dass dieselben Daten zweimal oder öfter erfasst werden. Wenn dies der Fall ist, gibt es zwei Möglichkeiten, Duplikate zu entfernen, je nach Ihren Datenanforderungen:
1. Duplikate entfernen, wenn die gesamten Datenzeilen gleich sind (Standardeinstellung)
Wenn der Lauf abgeschlossen ist, behandelt Octoparse Datenzeilen als Duplikate, wenn die gesamten Zeilen gleich sind (alle Datenfelder sind gleich). Sie können die Duplikate entfernen und nur die eindeutigen Zeilen behalten.
Beispiel: Die Zeilen Nr. 1 und Nr. 4 unten haben die gleichen Werte für jedes Datenfeld, sie sind also Duplikate. Nach dem Entfernen der Duplikate behält Octoparse nur die erste extrahierte Datenzeile, die in diesem Fall Zeile 1 ist.
2. Duplikate entfernen, wenn die ausgewählten Datenfelder gleich sind
Notiz: Diese Funktion ist für Version 8.1.16 und höher.
Bei der Erstellung des Aufgaben-Workflows können Sie die Aufgabe weiter anpassen, um Datenzeilen zu entfernen, die dieselben Werte für ein oder mehrere Datenfelder enthalten. Die Datenzeilen werden als Duplikate behandelt, solange die Werte der ausgewählten Datenfelder identisch sind. Andere nicht ausgewählte Datenfelder werden nicht berücksichtigt.
Beispiel 1: Wenn wir „Feld2“ zum Vergleich für die Datendeduplizierung auswählen, dann haben Zeile 1, Zeile 2 und Zeile 4 alle denselben Wert für „Feld2“. In diesem Fall werden diese Datenzeilen als Duplikate betrachtet. Nach der Entduplizierung behält Octoparse nur die erste extrahierte Datenzeile, in diesem Fall Zeile Nr. 1, und entfernt Zeile Nr. 2 und Zeile Nr. 4.
Beispiel 2: Wenn wir „Feld3“ und „Feld4“ zum Vergleich für die Datendeduplizierung auswählen, dann haben Zeile 1 und Zeile 4 die gleichen Werte für „Feld3“ bzw. „Feld4“. In diesem Fall werden Zeile #1 und Zeile #4 als Duplikate betrachtet. Nach der Entduplizierung behält Octoparse nur die erste extrahierte Datenzeile, die in diesem Fall Zeile 1 ist, und entfernt automatisch Zeile 4.
Führen Sie die folgenden Schritte aus, um die De-Dup-Einstellungen anzupassen:
Richten Sie die Aufgabe und die Datenfelder ein, die Sie erfassen müssen.
Klicken Sie auf das Symbol in der rechten oberen Ecke des Bereichs Datenvorschau.
Wählen Sie die Datenfelder aus, die Sie für die Deduplizierung vergleichen möchten. Klicken Sie nach der Auswahl auf Übernehmen, um die Einstellungen zu speichern.
Tipps:
Bei Cloud-Läufen werden nur Daten, die mit derselben De-Dup-Einstellung behandelt wurden, verglichen und kontinuierlich de-dupiert.
Nehmen wir zum Beispiel an, Sie setzen die erste De-Dup-Einstellung auf A (z. B. wählen Sie „Feld1“ zum Vergleichen) und haben das erste Bad mit Cloud-Daten erhalten.
Dann kehren Sie zu Ihrer Aufgabe zurück und ändern die De-Dup-Einstellung auf B (z. B. wählen Sie „Feld2“ für den Vergleich) und erhalten den zweiten Stapel von Cloud-Daten. Dieser zweite Datenstapel wird nicht mit dem ersten Datenstapel für die Deduplizierung verglichen.
Wenn Sie danach die Einstellung wieder auf A ändern (z. B. „Feld1“ zum Vergleichen auswählen) und den dritten Stapel Cloud-Daten erhalten, wird dieser dritte Stapel mit dem ersten verglichen. Dieser dritte Stapel von Daten wird mit dem 1. Stapel von Cloud-Daten verglichen und dedupliziert.