Zum Hauptinhalt springen

Funktionvorstellung von funtionierender Logik des Workflows

Vor über 2 Wochen aktualisiert

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

Nachdem Sie die Einführungslektionen abgeschlossen haben, sollten Sie über fundierte Kenntnisse der Grundlagen von Octoparse verfügen und in der Lage sein, einige Aufgaben erfolgreich zu erstellen.

In diesem Artikel werden wir uns eingehender mit der Funktionsweise von Octoparse befassen und erklären, wie damit Daten aus beliebigen Webseiten extrahiert werden können. Außerdem werden wir erläutern, wie verschiedene Aktionen in einem Workflow kombiniert werden können, um die gewünschten Ergebnisse zu erzielen. Ein solides Verständnis dieser Grundprinzipien ist entscheidend für die Erstellung komplexerer und effektiverer Scraping-Aufgaben.


1. Wie funktioniert Octoparse, die Daten zu extrahieren?

  • Prinzip 1: Octoparse simuliert die menschlichen Browsing-Verhalten.

Octoparse arbeitet durch die Simulierung der menschlichen Browsing-Verhalten in seinem intergrierten Browser. Aktionen wie Öffnen der Websites, Klick auf Elemente der Seite, Klick auf den Button der nächsten Seite oder Scrollen auf der Seite können in Octoparse gemacht werden. Der simulierte Scraping- Prozess ist für die Datenextraktion identisch, die Sie in jedem Browser nehmen möchten.

  • Prinzip 2: Octoparse scrapt Daten automatisch durch Workflow.

Wenn Sie jetzt eine Aufgabe in Octoparse erstellen möchten, ist das Schaffen eines Scraping-Workflows lebenswichtig, die in eine Reihe von Anweisungen ungewandelt werden müssen, die Octoparse befolgen könnte. Der Workflow wird allerdings automatisch durch Octoparse erzeugt, während Sie mit dem integrierten Browser interagieren. In einigen Fällen sollten Sie vielleicht nicht den automatisch erzeugten Workflow modifizieren; Aber in anderen Fällen könnten Sie manuell den Workflow aufbauen oder bei der Fehlerbehebung lösen, wenn alles nicht wie gewünscht in Ordnung wären. In beiden Fällen emfehle ich Ihnen hart es, dass Sie die Vorkenntnisse des Workflows beherrschen sollten, sodass die Daten genauer und exacter erhalten werden.


2. Verstehen des Workflows

Ein Workflow enthält normalerweise eine Reihe von Aktionen, die in einer speziellen Ordnung gestellt werden, um die Daten der Zielseite zu scrapen.

Die Schritte des Workflows sollten immer von oben bis unten, von innen bis außen gelesen werden. Ich würde einige Beispiele nennen, dass Sie ein besseres Verständnis über den Workflow haben könnten.

Beispiel 1: Datenextraktion von eine Liste der Elemente

Der oben beschriebene Arbeitsablauf wird in der folgenden Reihenfolge ausgeführt:

  • Schritt 1: „Zur Webseite“, um die Zielseite zu öffnen.

  • Schritt 2: „Pagination“, um den Button „Nächste Seite“ auf der Seite zu finden (Jetzt sind Sie auf der Seite 1).

  • Schritt 3: „Schleifenelement“, um die Liste der Elemente auf der Seite zu lokalisieren.

  • Schritt 4: „Daten extrahieren“, um die genötigen Daten aus der Liste der Elemente zu erhalten.

  • Schritt 5: „Zum Paginieren klicken“, um auf den Button „Nächste Seite“ zu klicken, da könnte man zur zweiten Seite oder zu den folgenden Seiten gehen.

  • Schritt 6: Erhalten die Daten aus dem Loop weiter, und klicken Sie auf den Button „Nächste Seite“, bis Octoparse die Daten von der letzten Seite scrapt.

  • Schritt 7: Es gibt keinen „Nächste Seite“-Button auf der letzten Seite, sodass der Workflow endet.

Beispiel 2: Datenextraktion von detaillierten Seiten beim Klick auf Elemente auf der Seite

Der oben beschriebene Arbeitsablauf wird in der folgenden Reihenfolge ausgeführt:

  • Schritt 1: „Zur Webseite“, um die Zielseite zu öffnen.

  • Schritt 2: „Pagination“, um den Button „Nächste Seite“ auf der Seite zu finden (Jetzt sind Sie auf der Seite 1).

  • Schritt 3: „Schleifenelement“, um die Liste der Elemente auf der Seite zu lokalisieren.

  • Schritt 4: „Klick Item“, um auf die Elemente aus das Scheilfenelement zu klicken und zur detaillierten Seite zu gehen.

  • Schritt 5: „Daten extrahieren“, um die genötigen Daten aus der detaillierten Seite zu erhalten.

  • Schritt 6: „Zum Paginieren klicken“, um auf den Button „Nächste Seite“ zu klicken, da könnte man zur zweiten Seite oder zu den folgenden Seiten Seitegehen.

  • Schritt 7: Erhalten die Daten aus dem Loop weiter, scrapen Sie Daten aus detaillierten Seiten und klicken Sie auf den Button „Nächste Seite“, bis Octoparse die Daten von der letzten Seite scrapt.

  • Schritt 8: Es gibt keinen „Nächste Seite“ Button auf der letzten Seite, sodass der Workflow endet.

Beispiel 3: Datenextraktion von der Liste der Elemente beim Klick auf Button „Mehr laden“

Der oben beschriebene Arbeitsablauf wird in der folgenden Reihenfolge ausgeführt:

  • Schritt 1: „Zur Webseite“, um die Zielseite zu öffnen.

  • Schritt 2: „Pagination“, um den Button „Load More“ auf der Seite zu lokalisieren.

  • Schritt 3: „Zum Paginieren klicken“, um auf den Button „Mehr laden“ zu klicken und mehrere Elemente auf der Seite zu laden.

  • Schritt 4: Klicken Sie auf „Mehr laden“ weiter, bis der Button verschwunden ist.

  • Schritt 5: „Schleifenelement“, um die Liste der Elemente auf der Seite zu lokalisieren.

  • Schritt 6: „Daten extrahieren“, um die Solldaten aus der Liste der Elemente zu scrapen.


3. Test des Workflows

Es ist bedeutend, die Ausführung des Workflows Schritt für Schritt zu prüfen, bevor die Aufgabe durchgeführt wird. Wenn Sie auf einen Schritt im Workflow klicken, wird Octoparse im intergrierten Browser die Aktion durchführen, um zu testen, ob sie wie gewünscht gut funktioniert. Gleichzeitig können Sie auch entsprechend sie modifizieren.

Als Beispiel wird Octoparse automatisch im intergrierten Browser die Website laden, wenn „Zur Webseite“ geklickt ist. Sie können mehrere Details über Prüfung des Workflows hier checken.

Tipps!

  • Es gibt keine feste Weisen, um einen Workflow zu erstellen. Das bedeutet, dass Sie jede Aktion hinzufügen können, solange die Aktionen logisch zusammen arbeiten könnten.

  • Sie können mehrmals auf die Aktionen oder Loop-Items klicken, um die Daten aus den Seiten der mehrfachen Ebenen zu scrapen. z.B. Listeseite und Seite des Produkts für Website-Verzeichnisse.

  • Sie können eine Aktion einfach an die richtige Stelle ziehen und verschieben.

Hat dies deine Frage beantwortet?