Zum Hauptinhalt springen

Intelligente Tipps in Octoparse

Vor über 11 Monaten aktualisiert

Octoparse ist ein leistungsstarkes Web-Scraping-Tool, mit dem Benutzer*innen ohne Programmierkenntnisse Daten aus Websites extrahieren können. Mit seiner benutzerfreundlichen Oberfläche und seinen fortschrittlichen Funktionen ist Octoparse eine beliebte Wahl für die Datenextraktion bei Unternehmen und Privatpersonen gleichermaßen. In diesem Artikel stellen wir Ihnen einige der nützlichsten Tools, Funktionen und Tipps vor, mit denen Sie problemlos an Daten gelangen.


1. Browser-Modus

Der in Octoparse integrierte Browser hat zwei Modi: Auswahlmodus und Browser-Modus.

Standardmäßig befindet sie sich im Auswahlmodus. Wenn Sie den Mauszeiger über die Seitenelemente bewegen, werden diese blau hervorgehoben. Wenn Sie auf ein Element klicken, führt Octoparse die Klickaktion nicht sofort aus. Stattdessen wählt es das Element nur aus und zeigt Ihnen Tipps an.

Browser-Modus kann den integrierten Browser in einen normalen Browser umwandeln, d. h. Sie sehen die blaue Markierung nicht und wenn Sie auf Elemente klicken, werden echte Klickaktionen ausgeführt.

Klicken Sie auf die Schaltfläche „Browser“ in der oberen rechten Ecke, um den Browser-Modus zu aktivieren. Sie können damit unerwünschte Pop-ups (z. B. Cookie-Pop-ups) schließen oder Captchas lösen.


2. Browser während der lokalen Ausführung anzeigen

Wenn Sie eine Aufgabe auf Ihrem Gerät ausführen, wird der Scraping-Prozess sichtbar, wenn Sie auf die Schaltfläche „Browser anzeigen“ anzeigen klicken.

Sie werden sehen, dass die Websites im Fenster geöffnet werden und den Prozess beobachten, um zu sehen, ob jeder Schritt gut funktioniert.

„Browser anzeigen“ kann automatisch aktiviert werden, wenn Sie diese Option in den Aufgabeneinstellungen wählen:


3. Event Logs

Wenn eine Aufgabe in der Lokale oder in der Cloud ausgeführt wird, wird jeder ausgeführte Schritt aufgezeichnet. Sie können die Ereignisprotokolle im Extraktionsfenster finden. Diese Protokolle können uns helfen, herauszufinden, welche Schritte nicht gut funktionieren.


4. XPath neu generieren

Octoparse funktioniert manchmal aufgrund von Website-Änderungen nicht mehr. In diesem Fall müssen wir den XPath aktualisieren. Hier ist ein kleiner Ausflug für Sie, um einen XPath schnell zu aktualisieren.

Klicken Sie einfach auf das Icon hinter dem XPath-Feld.

Rufen Sie die Webseite auf, um das Zielelement auszuwählen, und der XPath wird aktualisiert.


5. Feld anpassen

Octoparse kann die Textinformationen, die URL, den HTML-Code oder die Attributwerte eines Elements auslesen. Was müssen wir tun, wenn wir ein Feld haben, das den Text ausliest, und wir es ändern müssen, um den HTML-Code auszulesen?

Gehen Sie zu Mehr - > Feld anpassen - > die Ziel-Information auswählen


6. Unterseite eingeben

„Unterseite eingeben“ hilft Ihnen, schnell den Link der Detailseite auszuwählen, die Sie eingeben möchten.

Sobald Sie einen Schritt über das Scraping aus der Listenseite haben, können Sie auf „Unterseite eingeben“ klicken, um einen Link zum Öffnen auszuwählen (wenn Sie die Option in den Tipps nicht finden können). Octoparse richtet den Schritt des Klickens ein, um Daten von jedem Link zu erhalten.


7. Aus dem Workflow Schritte hinzufügen

Sie können jeden Schritt direkt aus dem Arbeitsablauf hinzufügen, indem Sie das Element auswählen und die Aktion aus den Tipps auswählen.

Bewegen Sie den Mauszeiger über die Pfeile im Workflow, und es wird eine „+“-Schaltfläche angezeigt. Klicken Sie darauf, um einen Schritt zum Hinzufügen auszuwählen.


Wenn Sie nicht den gesamten Bereich auswählen können, indem Sie den Mauszeiger über die Seitenelemente bewegen, können Sie versuchen, auf ein Element innerhalb dieses Bereichs zu klicken und dann auf die Schaltfläche Auswahlbereich erweitern klicken.


9. Aufgabe in 2 Teilaufgaben aufteilen

In vielen Fällen empfiehlt es sich, eine Aufgabe in zwei Aufgaben aufzuteilen, um die Daten schneller oder besser zu erfassen.

Wenn Sie beispielsweise eine E-Commerce-Suchergebnisseite scrapen müssen und auf jeden Produktlink klicken möchten, um Informationen zu erhalten. Sie können eine Aufgabe erstellen, um zuerst alle Produktlinks zu scrapen, und dann eine weitere Aufgabe erstellen, um die Daten von den Produktlinks zu scrapen.

Hier sind einige häufige Situationen, in denen Sie versuchen können, die Aufgabe in zwei Teile aufzuteilen.

  • Sie müssen auf jeden Produktlink klicken, um die Daten zu erhalten, und die Datenmenge ist ziemlich groß. Wenn Sie zuerst die Links scrapen, ist es einfacher, die fehlenden Produkte zu scrapen, da Sie bereits die Produktlinks haben.

  • Dies ist besonders nützlich, wenn die Website unendliches Scrollen oder mehr Ladevorgänge verwendet.

  • Die Website verwendet AJAX-Laden, wenn Sie direkt auf den Link klicken.

  • Wenn der Scraping-Prozess langwierig ist, können Sie die Aufgabe aufteilen, um sicherzustellen, dass er gut funktioniert.


10. Schleifenelement anklicken, um zu sehen, ob Octoparse zur vorherigen Seite gehen kann

Sie können überprüfen, ob das Schleifenelement korrekt funktioniert, indem Sie manuell durch die Aktionen im Workflow klicken.

  • Klicken Sie auf „Schleifenelemet“, nachdem die Listenseite geladen ist.

  • Klciken Sie auf „Klick Item“ und warten, bis die neue Seite gelade ist.

  • Klicken Sie auf „Schleifenelement“ wieder, um zu sehen, ob Octoparse die Listenseite anzeigt.

Wenn Sie die Listenseite sehen können, bedeutet dies, dass Octoparse in der Lage ist, zur Listenseite zurückzukehren, und die Schleife sollte funktionieren. Andernfalls müssen Sie den Workflow ändern, damit er funktioniert.


11. Benutzeragent vom Browser auf Edge 128.0 wechseln, um CAPTCHA in den Einstellungen zu umgehen

Die Umstellung des Benutzeragenten auf Edge 128.0 kann ein sehr effektiver Weg sein, um CAPTCHA oder Cloudflare-Sicherheitsüberprüfungen zu umgehen. Wenn Sie außerdem Probleme mit dem Laden von Webseiten haben, könnte dieser einfache Tweak die Lösung sein, nach der Sie schon lange gesucht haben.

Hat dies deine Frage beantwortet?