Zum Hauptinhalt springen

Umgang mit Paginierung (mit Button „Mehr Laden“)

Vor über 3 Monaten aktualisiert

Viele Websites verwenden einen Button von „Mehr laden“ oder „Weiter anzeigen“, um Inhalte kontinuierlich zu laden. Diese Technik wird bei den Websites viel verwendet, die für Benutzer/innen eine bessere Erfahrung anbieten möchten.

Im Vergleich zur Paginierung mit einem Button von „Weiter“ fügen Websites mit „Mehr laden“ kontinuierlich mehrere Inhalte auf einer einzelnen Webseite hinzu, was das Web Scraping schwieriger macht. In diesem Artikel zeige ich Ihnen, wie Sie mit dem Button „Mehr laden“ in Octoparse umgehen können.


Methode 1: Verwenden Sie die automatische Erkennung, um mit der Schaltfläche "Mehr laden" umzugehen

Die Funktion zur automatischen Erkennung von Webseitendaten von Octoparse kann bei dieser Art von Website problemlos helfen.

  • Klicken Sie auf Daten der Webseite automatisch detektieren und warten Sie, bis der Vorgang abgeschlossen ist.

  • Klicken Sie im Bereich „Tipps“ auf "Mehr Laden".

  • Klicken Sie auf Überprüfen, um zu prüfen, ob die Schaltfläche „Mehr laden“ richtig platziert ist. Wenn nicht, klicken Sie auf Bearbeiten, um die richtige Schaltfläche auszuwählen.

  • Klicken Sie auf Bearbeiten, um die Anzahl der Klicks festzulegen, also wie oft Sie auf die Schaltfläche „Mehr laden“ klicken möchten.

  • Richten Sie das AJAX-Timeout ein. Dies ist die Zeit, die die Seite zum Laden benötigt, nachdem auf die Schaltfläche geklickt wurde.

  • Klicken Sie auf Workflow erstellen, um die Einstellungen zu generieren.

Der Workflow sollte wie das folgende Bild aussehen:


Methode 2: Erstellung einer Paginierung manuell

Wenn die automatische Erkennung die Schaltfläche „Mehr laden“ nicht findet, können Sie versuchen, den Paginierungsschritt manuell zu erstellen.

  • Wählen Sie auf der Webseite die Schaltfläche „Mehr Anzeigen“ und wählen Sie Schleife klicken“.

  • Richten Sie ein geeignetes AJAX-Timeout ein.

Im Workflow wird ein Paginierungsschritt erstellt und Sie können dann weitere Schritte zum Abrufen von Daten hinzufügen.

Tipps:

1. Wenn Sie die Schaltfläche „Mehr laden“ nur X-mal anklicken möchten, klicken Sie auf das Feld „Pagination“, aktivieren Sie „Wiederholungen“ und legen Sie „Wiederholungen“ auf die Zahl X fest.

2. Wenn Sie feststellen, dass die Aufgabe beim Scraping viele Duplikate erhält, können Sie das Loop-Element aus der Paginierung ziehen, sodass Octoparse nach dem Laden aller Elemente mit dem Scraping beginnt.

Hat dies deine Frage beantwortet?