Zum Hauptinhalt springen

Funktionvorstellung von „Wiederholen Aktion“

Vor über 2 Jahren aktualisiert

Wiederholen-Aktion ist eine Funktion in Octoparse, um den Seitenladefehler zu behandeln. Es gibt eine Reihe von Bedingungen, unter denen Sie Octoparse die aktuelle Webseite neu laden lassen können. Für das Web Scraping ist es wichtig, dass die Webseite korrekt geladen wird, damit Octoparse die benötigten Informationen extrahieren kann.


Warum Wiederholen einstellen?

Octoparse hat Probleme beim Scraping der Ziel-Webdaten oder sogar beim Fortfahren mit der nächsten Aktion, wenn die Webseite nicht richtig geladen wird. Aus diesem Grund ist es sinnvoll, „Wiederholen“-Bedingungen einzurichten, wenn die Webseite vor der Datenextraktion Daten neu geladen werden soll.


Wie Wiederholen einstellen?

Die Option von Wiederholen ist nur für zwei Seitenladen-verwandte Aktionen im Workflow geeignet: „Zur Webseite“ und „Klick Item/Zum Paginieren klicken“.

  • Klicken Sie auf die Aktion zum Zugang zu den Einstellungen. Dann klicken Sie auf Wiederholen öffnen, um die Optionen anzuzeigen.

  • Wählen Sie den Kasten für „Versuchen Sie die Aktion, wenn

  • Klicken Sie auf „Bedingungen hinzufügen“, um Bedingungen festzulegen, wann die Seite neu geladen werden soll. Im Grunde teilen Sie Octoparse mit, wann die Seite neu geladen werden soll, wenn eine oder mehrere Bedingungen erfüllt sind.

Verschuchen die Aktion

Nun sollten Sie mit den angebotenen Optionen die Wiederholen-Bedingungen erstellen.

Bedingungen einstellen

Wenn eine Seite nicht richtig geladen werden kann, erhalten Sie normalerweise Fehlermeldungen wie „Errors“, „500 Internal Server Error“ oder „Zu viele Anfragen“. Hier stellen wir „500 Internal Server Error“ als ein Beispiel: Wenn es auf der Seite erscheint, wie soll die Webseite wieder geladen sein.

In diesem Fall sollte die Bedingung lauten: Wenn der aktuelle Seitentext „500 Internal Server Error“ enthält, wird die Seite neu geladen. Als Ergebnis würde Octoparse versuchen, die Seite erneut zu laden, wenn die Zeichenfolge auf der aktuellen Seite gefunden wird.

Wiederholen aktion erstellen

Sie können auch den XPath eines bestimmten Elementes eingeben, was erscheinen wird, nur wenn die Webseite richtig geladen ist. In diesem Fall benötigen Sie „enthält nicht“ auswählen. Zusammenfassend wird Octoparse die Webseite erneut laden, wenn das bestimmte Element nicht auf die Seite gefunden wird.

enthält nicht

Immer klicken Sie auf „Bedingungen hinzufügen“, um nach den Anforderungen Ihres Projektes so viele Bedingungen wie nötig hinzuzufügen. Oder Sie können auf „Löschen“-Button klicken, um die nicht benötigten Bedingungen zu löschen.

  • Wiederholungsversuch für“ und „Wartezeit“ einstellen

Nachdem Sie die Bedingungen für die Wiederholung festgelegt haben, können Sie entscheiden, ob Sie das Laden der Webseite einmal, zweimal oder mehrmals wiederholen möchten. Die maximale Anzahl der Wiederholungsversuche ist wichtig, damit Octoparse die Webseite nicht endlos neu lädt. Wenn Octoparse die maximale Anzahl von Wiederholungsversuchen erreicht hat, hält es an und fährt mit dem nächsten Schritt fort.

Wiederholungsversuch für und Wartezeit
Hat dies deine Frage beantwortet?