Wir haben einige wichtige neue Updates für die Funktion zur automatischen Erkennung von Webseitendaten, um die Erkennungserfolgsrate und Genauigkeit von Webseitenelementen in fast 200 gängigen Domänen zu verbessern:
Verbesserte Genauigkeit und Vollständigkeit bei der Identifizierung gültiger Elemente.
Die Möglichkeit zum Erkennen von Inhalten, die zum Scrollen innerhalb eines bestimmten Bereichs einer Webseite erforderlich sind, wurde hinzugefügt.
Verbesserte Erkennungserfolgsrate für Szenarien mit Paginierungsschaltflächen, unendlichem Scrollen usw.
Für bestimmte häufig verwendete Felder wurde eine mehrsprachige Benennung implementiert.
Was ist die automatische Erkennung?
Die Auto-Erkennungsfunktion ist eine der neuesten Innovationen von Octoparse Version 8. Mit dieser Funktion können Benutzer ihre Arbeit ganz einfach per Mausklick starten. Die Funktion hat sich erfolgreich bei der Verarbeitung von Webseiten unterschiedlichen Designs mit Listen, Tabellen, unendlichem Scrollen, Schaltflächen zum Laden weiterer Elemente usw. bewährt. Jetzt ist es an der Zeit, unseren wertvollen Benutzern diese äußerst nützliche und leistungsstarke Funktion vorzustellen.
Wie benutzt man es?
Schritt 1: Starten Sie eine Aufgabe mit der URL Ihrer Zielwebsite
Um eine Aufgabe zu starten, geben Sie die URL in das Suchfeld ein und klicken Sie auf Start. In diesem Tutorial verwenden wir diese Website als Beispiel: https://www.ebay.com/b/Laptops-Netbooks/175672/bn_1648276
Schritt 2: Starten Sie die automatische Erkennung
Sobald die Website im integrierten Browser vollständig geladen ist, klicken Sie im Bereich „Tipps“ auf „Webseitendaten automatisch erkennen“, um die automatische Erkennung zu starten.
Schritt 3: Ändern Sie die Einstellungen
Entfernen Sie unerwünschte Daten
Klicken Sie im Abschnitt „Datenvorschau“ auf das Papierkorbsymbol, um alle unerwünschten Datenfelder zu entfernen.
Bestätigen Sie die Einstellungen auf den Tipps
Im Bereich „Tipps“ werden drei Optionen aufgeführt .
Daten in der Liste extrahieren – Diese Option ist standardmäßig ausgewählt, um das Scraping der Datenliste auf der Seite zu erleichtern.
Paginieren, um mehr Seiten abzurufen – Es wird eine Schaltfläche „Nächste Seite“ gefunden, um Daten von mehreren Seiten abzurufen.
Seiten-Scrollen hinzufügen – Mit dieser Option können Sie die Seite nach dem Laden nach unten scrollen.
Sie können die Einstellungen überprüfen/modifizieren/abwählen.
a) Einstellungen überprüfen
Klicken Sie unter „Paginieren“ auf „Überprüfen“ , um weitere Seiten zu scrapen. Die Schaltfläche für die Paginierung wird hervorgehoben.
b) Einstellungen modifizieren
Klicken Sie auf den „Edit“ Button unter einer Option, um die Einstellungen zu modifizieren.
c) Einstellungen abwählen
Sobald Sie diese Option nicht brauchen, kreuzen Sie einfach das Kästchen davor nicht.
Klicken Sie auf Workflow erstellen
Nachdem Sie die Optionen bestätigt haben, können Sie Workflow erstellen auswählen, um die Aktionen zu generieren.
Benennen Sie die Felder um
Sie können auf die Feldüberschrift doppelklicken, um sie umzubenennen.
Schritt 4: Weitere Scraping-Aktionen
Die automatische Erkennung kann bei der Konfiguration eines grundlegenden Workflows mit den Schritten „Paginierung“ und „Daten extrahieren“ helfen. Wenn Sie auf die einzelnen Links klicken möchten, um weitere Informationen zu erhalten, oder auf die Schaltfläche „Mehr laden“ klicken möchten , können Sie die Optionen im Bereich „Tipps“ auswählen , um die Aktionen einfach zu konfigurieren.
Schaltfläche „Nächste Seite“ – Falls Octoparse keine Schaltfläche zur Seitennummerierung erkennt, können Sie auf diese Option klicken und die Schaltfläche auswählen.
Schaltfläche „Mehr laden“ – Wenn auf der Webseite eine Schaltfläche „Mehr laden“ vorhanden ist, können Sie diese Option auswählen. Wählen Sie die Schaltfläche „Mehr laden“ auf der Seite aus, damit der Scraper automatisch auf die Schaltfläche klickt, um weitere Daten zum Scraping zu laden.
Tipps: Um zu überprüfen, ob die Links Ihren Bedürfnisse entsprechen, sollten Sie zuerst auf den „Check“ Button klicken, so dass diese Links auf der Webseite hervorgehoben sein würden. |
Schritt 5: Fehlende Daten manuell ergänzen
Manchmal werden Datenfelder von der automatischen Erkennung übersehen. Sie müssen die Datenfelder manuell hinzufügen. Wählen Sie einfach die Informationen auf der Webseite aus und wählen Sie „Text“.
Schritt 6: Einstellungen speichern und Extraktion starten
Klicken Sie zuerst auf die Schaltfläche „Speichern“ , um alle vorgenommenen Einstellungen zu speichern, und klicken Sie dann auf „Ausführen“ , um Ihre Aufgabe entweder auf Ihrem lokalen Gerät oder in der Cloud auszuführen.