Diese automatisch detektierte Funktion ist eine der neuesten Innovationen von Octoparse Version 8. Mit dieser Funktion können die Benutzer*innen einfach Ihre Arbeit starten, indem Sie auf einen einzigen Button klicken. Die Funktion hat sich erfolgreich bewährt, wenn es darum geht, Webseiten verschiedener Designs mit Auflistungen, Tabellen, unendlichen Bildläufen, „Mehr Laden“ Button usw. zu verarbeiten. Nun ist es die Zeit, dass wir Ihnen diese nützlichste und mächtigste Funktion von Octoparse vorstellen.
Wie verwendet man diese Funktion?
Schritt 1: Eingabe der URL auf der Startseite
Geben Sie die Beispiel-URL „https://www.ebay.com/b/Laptops-Netbooks/175672/bn_1648276“ in das Suchfeld ein, das im Zentrum der Sartseite liegt. Klicken Sie auf „Start“, um eine neue Aufgabe mit erweitertem Modus zu erstellen.
Schritt 2: Starten der Auto-Detektion
Die Detektion würde starten, nachdem Sie auf „Auto-detect web page data“ geklickt haben. Und wir können einfach darauf warten, bis der Prozess abgeschlossen ist.
Schritt 3: Modifizieren der Einstellungen
Prozess 1: Entfernen Sie die ungewünschten Daten.
Klicken Sie auf den Müll-Button auf der Datenvorschau, um Ihre ungewünschten Datenfelder zu entfernen.
Prozess 2: Benennen Sie Ihre Daten um.
Prozess 3: Bestätigen Sie die Einstellungen in Tipps.
Es gibt einige Optionen wie „extract list“, „paginate“ und „page scroll“, die in der Tipps-Platte aufgelistet werden.
Extract the data in the list - Diese Option ist standardmäßig ausgewählt, um den Benutzern zu helfen, eine Liste von Daten auf der Webseite zu scrapen.
Paginate to scrape more pages - Das lokalisiert einen „Nächste Seite“ Button, um die Daten aus mehreren Seiten zu erhalten.
Add a page scroll - Mit dieser Option kann man die Seite nach dem Laden nach unten scrollen.
Sie können die Einstellungen überprüfen/modifizieren/abwählen.
a) Einstellungen überprüfen
Klicken Sie auf „Check“ unter „Paginate to scrape more pages“, und dann würden Sie sehen, dass der Button von der Paginierung vorgehoben ist.
b) Einstellungen modifizieren
Klicken Sie auf den „Edit“ Button unter einer Option, um die Einstellungen zu modifizieren.
c) Einstellungen abwählen
Sobald Sie diese Option nicht brauchen, kreuzen Sie einfach das Kästchen davor nicht.
Prozess 4: Klicken Sie auf „Create workflow“.
Nachdem die Optionen bestätigt wurden, können Sie „Create workflow“ wählen, um die Aktionen zu generieren.
Schritt 4: Mehr Scraping-Aktionen
Die Auto-Detektion könnte den Bunutzern helfen, den basierten Workflow mit Paginierung zu konfigurieren und die Daten zu extrahieren. Wenn Sie auf jeden Link klicken möchten, um mehr Information zu erhalten, oder auf den „Mehr laden“ Button zu klicken, können Sie die Optionen in der Tipps-Platte zu selektieren, um die Aktionen leicht zu konfigurieren.
Click on a "Load More" button - Wenn es einen „Mehr laden“ Button auf der Webseite gäbe, können Sie deshalb diese Option wählen, den „Mehr laden“ Button auf der Seite selektieren und die Anzahl vom Klicken einstellen, um die Scraper automatisch auf den Button klicken zu lassen, so dass man mehr Daten für Scraping laden kann.
Click on link(s) to scrape the linked pages - Wenn Sie auf jeden erkannten Link klicken und mehr Informationen aus den Detailseiten extrahieren möchten, wählen Sie diese Option und einen Link, worauf Sie klicken wollen.
Tipps: Um zu überprüfen, ob die Links Ihren Bedürfnisse entsprechen, sollten Sie zuerst auf den „Check“ Button klicken, so dass diese Links auf der Webseite hervorgehoben sein würden. |
Schritt 5: Fügen Sie manuell fehlende Daten hinzu.
Manchmal würde es hier einige fehlende Datenfelder geben, wenn Sie den Modus von der automatischen Detektion ausgewählt haben. In diesem Fall benötigen Sie es, diese fehlende Datenfelder manuell hinzuzufügen. Einfach selektieren Sie die Information auf der Webseite und wählen Sie „Extract the text of the element“.
Schritt 6: Einstellungen speichern und Extraktion starten
Klicken Sie am Anfang auf den „Save“ Button, um alle gestellten Einstellungen zu speichern. Danach klicken Sie auf „Run“, damit Ihre Aufgabe in der Lokal oder in der Cloud ausgeführt werden kann.