Zum Hauptinhalt springen

Was ist Auto-Detect?

Vor über 2 Jahren aktualisiert

Diese automatisch detektierte Funktion ist eine der neuesten Innovationen von Octoparse Version 8. Mit dieser Funktion können die Benutzer*innen einfach Ihre Arbeit starten, indem Sie auf einen einzigen Button klicken. Die Funktion hat sich erfolgreich bewährt, wenn es darum geht, Webseiten verschiedener Designs mit Auflistungen, Tabellen, unendlichen Bildläufen, „Mehr Laden“ Button usw. zu verarbeiten. Nun ist es die Zeit, dass wir Ihnen diese nützlichste und mächtigste Funktion von Octoparse vorstellen.


Wie verwendet man diese Funktion?

Schritt 1: Eingabe der URL auf der Startseite

Geben Sie die Beispiel-URL „https://www.ebay.com/b/Laptops-Netbooks/175672/bn_1648276“ in das Suchfeld ein, das im Zentrum der Sartseite liegt. Klicken Sie auf „Start“, um eine neue Aufgabe mit erweitertem Modus zu erstellen.

URL eingeben


Schritt 2: Starten der Auto-Detektion

Die Detektion würde starten, nachdem Sie auf „Auto-detect web page data“ geklickt haben. Und wir können einfach darauf warten, bis der Prozess abgeschlossen ist.

auto-detektion starten


Schritt 3: Modifizieren der Einstellungen

  • Prozess 1: Entfernen Sie die ungewünschten Daten.

Klicken Sie auf den Müll-Button auf der Datenvorschau, um Ihre ungewünschten Datenfelder zu entfernen.

die Daten entfernen
  • Prozess 2: Benennen Sie Ihre Daten um.

Daten umbenennen
  • Prozess 3: Bestätigen Sie die Einstellungen in Tipps.

Es gibt einige Optionen wie „extract list“, „paginate“ und „page scroll“, die in der Tipps-Platte aufgelistet werden.

  1. Extract the data in the list - Diese Option ist standardmäßig ausgewählt, um den Benutzern zu helfen, eine Liste von Daten auf der Webseite zu scrapen.

  2. Paginate to scrape more pages - Das lokalisiert einen „Nächste Seite“ Button, um die Daten aus mehreren Seiten zu erhalten.

  3. Add a page scroll - Mit dieser Option kann man die Seite nach dem Laden nach unten scrollen.

Einstellungen in Tipps

Sie können die Einstellungen überprüfen/modifizieren/abwählen.

a) Einstellungen überprüfen

Klicken Sie auf „Check“ unter „Paginate to scrape more pages“, und dann würden Sie sehen, dass der Button von der Paginierung vorgehoben ist.

check settings

b) Einstellungen modifizieren

Klicken Sie auf den „Edit“ Button unter einer Option, um die Einstellungen zu modifizieren.

Einstellungen modifizieren

c) Einstellungen abwählen

Sobald Sie diese Option nicht brauchen, kreuzen Sie einfach das Kästchen davor nicht.

Einstellungen abwählen
  • Prozess 4: Klicken Sie auf „Create workflow“.

Nachdem die Optionen bestätigt wurden, können Sie „Create workflow“ wählen, um die Aktionen zu generieren.

Create workflow

Schritt 4: Mehr Scraping-Aktionen

Die Auto-Detektion könnte den Bunutzern helfen, den basierten Workflow mit Paginierung zu konfigurieren und die Daten zu extrahieren. Wenn Sie auf jeden Link klicken möchten, um mehr Information zu erhalten, oder auf den „Mehr laden“ Button zu klicken, können Sie die Optionen in der Tipps-Platte zu selektieren, um die Aktionen leicht zu konfigurieren.

Scraping-Aktionen einstellen
  • Click on a "Load More" button - Wenn es einen „Mehr laden“ Button auf der Webseite gäbe, können Sie deshalb diese Option wählen, den „Mehr laden“ Button auf der Seite selektieren und die Anzahl vom Klicken einstellen, um die Scraper automatisch auf den Button klicken zu lassen, so dass man mehr Daten für Scraping laden kann.

Click on a "Load More" Button
  • Click on link(s) to scrape the linked pages - Wenn Sie auf jeden erkannten Link klicken und mehr Informationen aus den Detailseiten extrahieren möchten, wählen Sie diese Option und einen Link, worauf Sie klicken wollen.

Click on links to scrape the linked pages

Tipps: Um zu überprüfen, ob die Links Ihren Bedürfnisse entsprechen, sollten Sie zuerst auf den „Check“ Button klicken, so dass diese Links auf der Webseite hervorgehoben sein würden.


Schritt 5: Fügen Sie manuell fehlende Daten hinzu.

Manchmal würde es hier einige fehlende Datenfelder geben, wenn Sie den Modus von der automatischen Detektion ausgewählt haben. In diesem Fall benötigen Sie es, diese fehlende Datenfelder manuell hinzuzufügen. Einfach selektieren Sie die Information auf der Webseite und wählen Sie „Extract the text of the element“.

fehlende Daten hinzufügen

Schritt 6: Einstellungen speichern und Extraktion starten

Klicken Sie am Anfang auf den „Save“ Button, um alle gestellten Einstellungen zu speichern. Danach klicken Sie auf „Run“, damit Ihre Aufgabe in der Lokal oder in der Cloud ausgeführt werden kann.

Datenextraktion starten
Hat dies deine Frage beantwortet?