Zum Hauptinhalt springen

Lektion 7: Zusammenfassung! Erstellen Ihrer ersten Scraping-Aufgabe

Vor über 4 Monaten aktualisiert

Dies ist die letzte Lektion der Einführungsserie. Wir hoffen, Sie hatten Spaß daran, etwas Neues und Nützliches zu lernen. Um alle Puzzlestücke zusammenzufügen, lassen wir eine Zusammenfassung mit einer Schritt-für-Schritt-Anleitung machen, wie Sie eine Scraping-Aufgabe von Grund auf erstellen. Wir werden Sie durch den gesamten Prozess von der Eingabe der URL bis zum Herunterladen der extrahierten Daten führen. Fangen wir gleich damit an.

Als ein Beispiel werden wir die Artikel-Information aus der Beispiel-URL abrufen:


Schritt 1: Starten einer neuen Aufgabe

  • Öffnen Sie die Octoparse-App und geben Sie die Ziel-URL in die Suchleiste ein.

  • Dann klicken Sie auf „Starten“, um eine neue Aufgabe zu erstellen.


Schritt 2: Durchführung der automatischen Detektion

Sobald die Webseite im integrierten Browser geladen ist, wählen Sie „Daten der Website automatisch detektieren“ unter den Aktion-Tipps.Da wird Octoparse sofort mit der Detektion der Webseitendaten beginnen. Sie können den Fortschrittsbalken überprüfen und geduldig warten, bis er fertig ist.


Schritt 3: Vorschau Ihrer Daten

Sobald der automatische Erkennungsprozess abgeschlossen ist, können Sie Ihre Daten im Bereich Datenvorschau überprüfen. Klicken Sie auf das Papierkorbsymbol, um nicht benötigte Daten zu entfernen.


Schritt 4: Speicherung der Einstellungen von automatischer Detektion

Nun können Sie zu „Tipps“ zurückkehren und die Einstellungen überprüfen.

  • Prozess 1: Aktivieren Sie das Kontrollkästchen „Seiten scrollen hinzufügen“, wenn Ihre Ziel-Website mehr Elemente lädt, während die Seite scrollt.

  • Prozess 2: Aktivieren Sie das Kontrollkästchen „Paginieren, um mehr Seiten zu scrapen“, wenn Sie mehr als eine Seite scrapen möchten.

  • Prozess 3: Prüfen Sie, ob die richtige Schaltfläche für den Seitenumbruch auf der Website ausgewählt wurde (hervorgehoben).

Klicken Sie nun auf „Workflow erstellen“ und Octoparse wird den Workflow automatisch generieren.


Wenn Sie neben der Auflistungsseite weitere Daten von der Artikeldetailseite abrufen möchten, führen Sie bitte die folgenden Schritte aus:

  • Prozess 4: Klicken Sie auf „Unterseite-URL auswählen“.

  • Wählen Sie die Option „Klicken Sie auf ein gescraptes Datenfeld“ aus.

  • Selektieren Sie auf „Titel_Link“ vom Dropdown Menü und klicken auf „Übernehmen“.

Notieren Sie es, wie ein zusätzlicher Schritt zum Workflow hinzugefügt wird, der „In der Liste auf URLs klicken“ darstellt.


Schritt 5: Wahlen der Daten von detaillierten Seiten

Sie gelangen nun auf die Artikeldetailseite. Wählen Sie erneut die Option „Daten der Website automatisch detektieren“ in den Tipps.

Octoparse kann automatisch den Titel, den Inhalt, den Autor usw. eines Artikels erkennen.

Tipp: Der automatische Erkennungsprozess wird automatisch gestartet. Sie können zwischen den erkannten Ergebnissen wechseln, bis Sie die richtigen Daten ausgewählt haben.

Klicken Sie auf „Workflow erstellen“ und der aktualisierte Workflow sollte wie dies aussehen:

Sie können die Informationen auf der Webseite auch manuell auswählen, um Daten zu scrapen, wenn die automatische Erkennung auf der Unterseite nicht gut funktioniert.


Schritt 6: Reinigen der extrahierten Daten

Wenn wir uns die extrahierten Daten ansehen, gibt es etwas, das wir gerne ändern würden. Zum Beispiel möchten wir das Veröffentlichungsdatum in jjjj-mm-tt umformatieren und müssen dafür „Daten reinigen“ verwenden.

  • Klicken Sie auf das Symbol „Mehr“ in der rechten Ecke, die an der Spitze von der Seite steht, und wählen Sie „Daten reinigen“.

  • Klicken Sie auf „Schritt hinzufügen“ - „Datum/Uhrzeit umformatieren“.

  • Wählen Sie die gewünschte Form.

Tipp: Schauen Sie in diesem Tutorial mehrere Techniken über die Reinigung der extrahierten Daten an: Verfeinerung der gescrapten Daten (Ersetzung des Inhalt, Hinzufügen des Präfix...)


Schritt 7: Test - Ausführung der Aufgabe

Die Scraping-Aufgabe ist nun abgeschlossen. Wie bereits erwähnt ist es immer empfehlenswert, den Workflow Schritt für Schritt zu testen und sicherzustellen, dass jeder Schritt richtig eingestellt wird, z.B. die Webseite sollte im integrierten Browser problemlos geladen sein, wenn Sie auf „Zur Website“ klicken.

Starten Sie den Workflow und klicken Sie auf alle Schritte von oben nach unten und von innen nach außen für verschachtelte Schritte (wie Paginierung). Beobachten Sie, ob die Webseite wie erwartet reagiert. Die detaillierte Testmethodik finden Sie hier, schauen Sie sich diese bei Bedürfnissen an.


Schritt 8: Planung und Ausführung

Wenn Sie Ihre Aufgabe vollständig getestet haben und die gut funktioniert, können Sie durch Ausführung der Aufgabe in der Cloud viel schneller die Daten extrahieren, oder Sie können auch es planen, dass die Aufgabe regelmäßig ausgeführt wird.

Um einen Cloud-Lauf zu starten, klicken Sie unter „In der Cloud ausführen“ auf Standard-Modus oder Boost-Modus.

Um die Aufgabe zu planen, klicken Sie auf „Zeitpläne“ unter Aufgabeneinstellungen und dann auf „Bearbeiten“.

Wählen Sie die gewünschte Frequenz und legen Sie den Zeitpunkt (Tag und Uhrzeit) für die Ausführung fest.


Schritt 9: Export Ihrer Daten

Suchen Sie in der Aufgabenliste Ihre Aufgabe und klicken Sie auf Aufgabenstatus öffnen, um die extrahierten Daten anzuzeigen. (Natürlich können Sie auch direkt nach dem Scraping alle gescrapten Daten exportieren.)

Klicken Sie unten auf „Daten exportieren“ und wählen Sie das Format, in dem Sie die Daten herunterladen möchten.


Herzlichen Glückwunsch! Sie haben die Einführung geschafft und sich zum fortgeschrittenen Scraping-Experten entwickelt. Wir hoffen, dass dies nicht das Ende Ihres Lernens ist, sondern der Anfang Ihrer Reise von Web Scraping.

Wenn Sie Fragen haben, egal ob die aufgabenbezogen, Web-Scraping-bezogen oder servicebezogen sind, lassen Sie uns helfen. Das Octoparse Team ist stolz darauf, Ihnen beim Web Scraping helfen zu können.

Hat dies deine Frage beantwortet?