Zum Hauptinhalt springen

Warum habe ich so viele Duplikaten?

Vor über 4 Monaten aktualisiert

Sie befinden sich in einer Anleitung für die neueste Version von Octoparse. Wenn Sie eine ältere Version von Octoparse verwenden, empfehlen wir Ihnen dringend ein Upgrade, da es schneller, einfacher und robuster ist! Laden Sie das Upgrade hier herunter, wenn Sie es noch nicht getan haben!

Duplikate in Octoparse beziehen sich auf Datenzeilen, die in allen Feldern identisch sind. Wenn es nur wenige Duplikate gibt, können Sie diese beim Exportieren der Daten entfernen.

Wenn Sie jedoch auf viele Duplikate und nur wenige gültige Datenzeilen stoßen, kann dies frustrierend sein. In diesem Tutorial zeigen wir Ihnen, wie Sie Probleme mit Duplikaten lösen können.


Fehler 1: Beim Datenerfassen mehrerer Webseiten springt Octoparse zu bereits erfassten Seiten zurück oder erfasst die Daten wiederholt auf der letzten Seite.

Der automatisch generierte Paginierungs-XPath funktioniert nicht immer gut. Wenn Sie auf mehreren Seiten wiederholt Octoparse-Duplikate finden, müssen Sie einige Anpassungen vornehmen.

Lösung: Editieren Sie den XPath von Pagination, um sicherzustellen, dass die Schaltfläche für Nächste Seite genau lokalisiert wird.

  • Schritt 1: Öffnen Sie die Einstellungen von Pagination.

  • Schritt 2: Geben Sie den neuen XPath ein und klicken Sie zum Speichern auf „Übernehmen“.

Tipp: Klicken Sie hier bitte, um eine Erfahrung über XPath zu bekommen: Was ist XPath und wie ihn zu verwenden?


Fehler 2: Beim Datenerfassen mehrerer Webseiten ist die AJAX-Wartezeit für Umblättern zu kurz, deswegen wird die nächste Seite nicht richtig geladen, trotzdem erfasst Octoparse weiterhin die Daten auf der aktuellen Seite.

Bei Seiten, die mit AJAX geladen werden, kann es vorkommen, dass die nächste Seite nicht geladen wird, wenn die Zeitüberschreitung nicht lang genug ist, so dass Octoparse die aktuelle Seite erneut scrapen muss, was zu Duplikaten führen kann.

Lösung: Verlängern Sie die AJAX-Wartezeit, damit die nächste Seite völlig geladen wird.

  • Schritt 1: Öffnen Sie die Einstellungen von „Zum Paginieren klicken“.

  • Schritt 2: Stellen Sie eine längere AJAX-Wartezeit.

Tipp: Sie können hier klicken und erfahren wie soll man AJAX einstellen.


Fehler 3: Beim Erfassen der Listendaten ist nur die erste Zeile von Octoparse erkannt oder im Datenfeld sind alle Zeiledaten gleich.

Wenn Octoparse eine Liste von Einträgen in einer Schleife durchläuft, um Daten abzurufen, kann es vorkommen, dass es bei einem Eintrag hängen bleibt. Oder andere Felder werden von jedem Element korrekt erfasst, aber ein oder zwei Felder sind fest.

Dies liegt daran, dass die Aktion Daten extrahieren nicht mit der Aktion Element schleifen verknüpft ist. Es müssen zwei Optionen ausgewählt werden, um die Aktionen „Daten extrahieren“ und „Schleifenelement“ miteinander zu verknüpfen.

  • Option 1: Wählen Sie „Data in der Schleife extrahieren“ in „Daten extrahieren“

  • Option 2: Editieren Sie „Relativer XPath“ in „Field Settings“.

Wenn die beiden Optionen aktiviert sind, sind „Daten extrahieren“ und „Schleifenelement“ miteinander verknüpft, und Octoparse wird die Daten aus jedem Element in der Schleife extrahieren.

Lösung 1: Erstellen Sie die Felder wieder

  • Schritt 1: Nachdem Sie die Option „Data in der Schleife extrahieren“ aktiviert haben, klicken Sie im Workflow auf das „Schleifenelement“ und dann auf „Daten extrahieren“.

  • Schritt 2: Das erste Element wird im Glanzlicht gekennzeichnet. Dann wählen Sie Ihre Zwecktexte in allen Glanzlichtfeldern aus.

Lösung 2: Editieren Sie direkt den XPath der Felder

  • Methode 1: Klicken Sie auf „Daten extrahieren“ und dann passen Sie den Xpath an.

    • Schritt 1: Klicken Sie auf „Daten extrahieren“.

    • Schritt 2: Klicken Sie auf „Mehr“ und wählen Sie „XPath anpassen“.

    • Schritt 3: Kreuzen Sie „Relativen Xpath“ an und geben Sie den richtigen XPath ein.

  • Methode 2: Klicken Sie auf Daten extrahieren, wechseln Sie zur vertikalen Ansicht und doppelklicken Sie auf jedes Feld, um den X-Pfad anzupassen. Das ist bequemer, wenn Sie mehrere X-Pfade ändern müssen.


Fehler 4: Die Aufgabe ruft immer wieder die letzte Seite auf

Hat dies deine Frage beantwortet?