Zum Hauptinhalt springen

Daten Scraping aus einem Tab

Vor über 3 Monaten aktualisiert

Wenn Sie schon einmal versucht haben, Daten von einer E-Commerce-Website zu scrapen, ist Ihnen das Scraping von Daten aus einem Tab möglicherweise nicht fremd. Wenn eine Webseite viele Informationen auf einer einzigen Seite anzeigen muss, werden häufig Tabs verwendet, um die Sortierung zu erleichtern. Erst wenn Sie auf den jeweiligen Tab klicken, werden die entsprechenden Informationen angezeigt.

Wie können wir nun allgemeine Infomationen extrahieren? Es gibt zwei Möglichkeiten, die Daten aus einer Registerkarte abzurufen.


Schritt 1: Erledigen Sie zuerst eine Klicken-Einstellung auf Tab.

Natürlich können Sie Octoparse anweisen, auf die Registerkarten zu klicken und den Inhalt jeweils aus den Registerkarten herauszukratzen.

  • Klicken Sie auf die Registerkarte, die Sie scrapen möchten.

  • Wählen Sie im Bereich „Tipps“ die Option „Auf Element klicken“

  • Richten Sie AJAX ein. Sie können das AJAX-Timeout an Ihre Netzwerkgeschwindigkeit anpassen.

  • Klicken Sie dann auf die Daten, die Sie erfassen möchten, und wählen Sie im Bereich „Tipps“ die Option „Text“ aus.

Tipps!

  • Weitere Informationen zu AJAX finden Sie in diesem Tutorial.

    Stellen Sie bei der Klickaktion sicher, dass die Option „In neuem Tab öffnen“ nicht aktiviert ist.


2. Scrapen Sie Daten direkt aus einem Tab, wenn der Inhalt im Quellcode gefunden wird

Auch wenn die Informationen in verschiedene Registerkarten sortiert sind, kann der Inhalt jeder Registerkarte bereits im Quellcode vorhanden sein, unabhängig davon, ob die jeweilige Registerkarte angeklickt wird oder nicht. In diesem Fall können wir den Inhalt der Registerkarte zunächst im Browse-Modus anzeigen und dann direkt mit dem Scraping der Zielinformationen fortfahren. Auf diese Weise müssen dem Workflow keine Klickaktionen hinzugefügt werden.

  • Um zu überprüfen, ob der Tab-Inhalt im Quellcode bereitgestellt wird, laden Sie die Webseite in Ihrem normalen Browser und drücken Sie „F12“ auf der Tastatur.

  • Überprüfen Sie den Quellcode und prüfen Sie, ob der Zielinhalt vorhanden ist. Für diese Beispielwebseite sehen wir, dass wir die entsprechenden Daten im Quellcode finden, obwohl wir nicht auf die Registerkarte „Versand und Rücksendungen“ geklickt haben. Daher wissen wir, dass es möglich ist, den Inhalt der Registerkarte direkt zu extrahieren, ohne auf die Registerkarte klicken zu müssen.

  • Gehen Sie nun zurück zu Octoparse und schalten Sie die Schaltfläche in der oberen rechten Ecke des integrierten Browsers um, um in den Browsermodus zu wechseln.

  • Klicken Sie auf die Registerkarte "Versand und Rücksendungen", um den Inhalt anzuzeigen

  • Schalten Sie die Schaltfläche „Browse-Modus“ erneut um und wechseln Sie zurück in den Workflow-Modus

  • Klicken Sie auf die zu erfassenden Daten und wählen Sie im Bereich „Tipps“ die Option „Text des Elements extrahieren“ aus.

  • Dort haben Sie den Tab-Inhalt direkt erfasst

Hat dies deine Frage beantwortet?