Viele Websites verwenden einen Button von „Mehr laden“ oder „Weiter anzeigen“, um Inhalte kontinuierlich zu laden. Diese Technik wird bei den Websites viel verwendet, die für Benutzer/innen eine bessere Erfahrung anbieten möchten.
Im Vergleich zur Paginierung mit einem Button von „Weiter“ fügen Websites mit „Mehr laden“ kontinuierlich mehrere Inhalte auf einer einzelnen Webseite hinzu, was das Web Scraping schwieriger macht. In diesem Artikel zeige ich Ihnen, wie Sie mit dem Button „Mehr laden“ in Octoparse umgehen können.
Methode 1: Verwenden Sie die automatische Erkennung, um mit der Schaltfläche "Mehr laden" umzugehen
Die Funktion zur automatischen Erkennung von Webseitendaten von Octoparse kann bei dieser Art von Website problemlos helfen.
Klicken Sie auf „Daten der Webseite automatisch detektieren“ und warten Sie, bis der Vorgang abgeschlossen ist.
Klicken Sie im Bereich „Tipps“ auf "Mehr Laden".
Klicken Sie auf „Überprüfen“, um zu prüfen, ob die Schaltfläche „Mehr laden“ richtig platziert ist. Wenn nicht, klicken Sie auf „Bearbeiten“, um die richtige Schaltfläche auszuwählen.
Klicken Sie auf „Bearbeiten“, um die Anzahl der Klicks festzulegen, also wie oft Sie auf die Schaltfläche „Mehr laden“ klicken möchten.
Richten Sie das AJAX-Timeout ein. Dies ist die Zeit, die die Seite zum Laden benötigt, nachdem auf die Schaltfläche geklickt wurde.
Klicken Sie auf Workflow erstellen, um die Einstellungen zu generieren.
Der Workflow sollte wie das folgende Bild aussehen:
Methode 2: Erstellung einer Paginierung manuell
Wenn die automatische Erkennung die Schaltfläche „Mehr laden“ nicht findet, können Sie versuchen, den Paginierungsschritt manuell zu erstellen.
Richten Sie ein geeignetes AJAX-Timeout ein.
Im Workflow wird ein Paginierungsschritt erstellt und Sie können dann weitere Schritte zum Abrufen von Daten hinzufügen.
Tipps:
1. Wenn Sie die Schaltfläche „Mehr laden“ nur X-mal anklicken möchten, klicken Sie auf das Feld „Pagination“, aktivieren Sie „Wiederholungen“ und legen Sie „Wiederholungen“ auf die Zahl X fest.
2. Wenn Sie feststellen, dass die Aufgabe beim Scraping viele Duplikate erhält, können Sie das Loop-Element aus der Paginierung ziehen, sodass Octoparse nach dem Laden aller Elemente mit dem Scraping beginnt.