Zum Hauptinhalt springen

Teilweises Scrollen - Scrollen innerhalb von einem bestimmten Bereich einer Webseite

Diese Woche aktualisiert

Was ist ein „Teilweises Scrollen“?

In den meisten Fällen müssen Sie die gesamte Seite mit der Standard-Bildlaufleiste auf der rechten Seite scrollen. Für diese Seiten funktioniert die Standard-Bildlaufmethode gut.

Es gibt jedoch Seiten, wie z. B. Rezensions- oder Beitragsseiten, die anders gestaltet sind. Nehmen wir eine Google-Maps-Bewertungen-Website als ein Beispiel ein.

Die Bewertungen werden auf der linken Seite der Webseite angezeigt, und dieser Teil verfügt über eine Bildlaufleiste. Wenn Sie diese Leiste nach unten ziehen, wird der Bewertungsbereich nach unten gescrollt und es werden weitere Bewertungen geladen. Sie werden jedoch feststellen, dass andere Teile der Seite nicht gescrollt werden.

Daten Scraping mit Web-Scrollen_01

Um den Bewertungsbereich zu scrollen, müssen Sie in Octoparse einen Schritt für Partielles Scrollen einrichten.


Wie kann man eines Teilweise Scrollen in Octoparse einstellen?

Hier gibt es zwei Methoden, um es einzurichten:

1. Einrichtung von Scroll für „Zur Webseite/Element anklicken“ (Scrollen Sie zunächst, bis der Ladevorgang abgeschlossen ist, und extrahieren Sie dann die Daten.)

  • Klicken Sie auf „Zur Webseite” oder „Klick Item”.

  • Klicken Sie auf „Optionen” und wählen Sie dann „Scrollen Sie die Seite nach unten, nachdem sie geladen wird”.

  • Wählen Sie „Teilweise” unter dem Scroll-Bereich.

  • Klicken Sie auf die Schaltfläche rechts neben dem XPath-Eingabefeld, um den Bildlaufbereich auszuwählen. Dadurch wird der XPath automatisch generiert und dieser Aufgabe mitgeteilt, wohin gescrollt werden soll.

  • Klicken Sie auf „Übernehmen“.

2. Einrichtung von Scroll für Schleifenelement (gleichzeitig scrollen und extrahieren)

  • Fügen Sie einen „Scrollen“-Schritt zum Workflow hinzu.

  • Wählen Sie „Teilweise” unter dem Scroll-Bereich.

  • Klicken Sie auf die Schaltfläche rechts neben dem XPath-Eingabefeld, um den Bildlaufbereich auszuwählen.

  • Klicken Sie auf „Übernehmen“.


Was ist, wenn der automatisch generierte XPath nicht funktioniert?

In diesem Fall können Sie versuchen, einen neuen XPath zu schreiben, der den ausgewählten Bildlaufbereich findet.

Hier sind die Schritte, die Sie ausführen können:

  • Klicken Sie mit der rechten Maustaste auf die Bildlaufleiste, um den Quellcode dieser Webseite zu überprüfen.

  • Finden Sie den Code, der dem Scroll-Bereich entspricht.

Tipp: Am Ende des HTML-Codes des Scrollfenster-Elements befindet sich eine „Scroll”-Kennung. Anhand dieser Kennung können Sie das richtige Element finden.

  • Klicken Sie mit der rechten Maustaste auf das Element und wählen Sie „XPath kopieren“.

  • Aktualisieren Sie den Xpath in Octoparse.

Notiz: Wenn der kopierte XPath nicht funktioniert, versuchen Sie, den XPath selbst zu schreiben.

In diesem hilfreichen Tutorial erfahren Sie mehr über XPath: Was ist XPath und wie ihn zu verwenden?

Hat dies deine Frage beantwortet?