Es gibt zwei Arten von Aufgaben innerhalb von Octoparse:
Benutzerdefinierte Aufgabe
Es wird immer empfohlen, vor dem Beginn einer Scraping-Aufgabe eine Suche durchzuführen, um festzustellen, ob eine gebrauchsfertige Vorlage verfügbar ist. Wenn für Ihre Zielwebsite keine Vorlage gefunden wird, können Sie mit der Erstellung einer benutzerdefinierten Aufgabe fortfahren.
Wie richte ich eine benutzerdefinierte Aufgabe ein?
Es gibt zwei Möglichkeiten, mit benutzerdefinierte Aufgabe schnell eine neue Aufgabe zu starten:
Methode 1
Fügen Sie die URL Ihrer Zielwebsite in das dafür vorgesehene Feld ein und klicken Sie auf Starten (oder drücken Sie die Eingabetaste) .
Methode 2
Bewegen Sie den Mauszeiger im Seitenleistenmenü über die Option Neu und wählen Sie benutzerdefinierte Aufgabe aus .
Die benutzerdefinierte Task-Schnittstelle
Der eingebaute Browser: Sobald Sie die URL einer Zielwebseite eingegeben haben, wird die Webseite im integrierten Browser von Octoparse geladen. Sie können die Website im Durchsuchen-Modus durchsuchen oder im Auswahlmodus per Klick die benötigten Daten extrahieren.
Workflow: Beim Interagieren mit der Webseite, wie dem Öffnen einer Seite oder dem Klicken auf einen Button, wird der gesamte Prozess automatisch als Arbeitsablauf definiert.
Tipps-Panel: Octoparse verwendet intelligente Tipps, um während des Extraktionsprozesses mit Ihnen zu „sprechen“ und Sie durch den Aufgabenerstellungsprozess zu führen.
Datenvorschau: Lassen Sie sich eine Vorschau der ausgewählten Daten anzeigen. Sie können die Datenfelder auch umbenennen oder nicht benötigte Felder entfernen.
So verwenden Sie benutzerdefinierte Aufgaben zum manuellen Erstellen von Aufgaben
Um eine Aufgabe manuell mit benutzerdefinierte Aufgabe zu erstellen, klicken Sie einfach auf die Zieldaten auf der Webseite. Folgen Sie den Tipps im Bereich Tipps, um mit dem Aufgabenerstellungsprozess fortzufahren. Die allgemeinen Erstellungsschritte sind unkompliziert:
Wählen Sie auf der Webseite die gewünschten Daten aus >> Folgen Sie den Anweisungen im Bereich Tipps >> Überprüfen Sie Ihren Arbeitsablauf >> Führen Sie die Aufgabe aus, um Daten abzurufen
Aufgrund der Natur des Internets ändern sich Webseiten ständig und verschiedene Personen benötigen möglicherweise unterschiedliche Datensätze. Die benutzerdefinierte Aufgabe wird mit der erforderlichen Flexibilität und Vielseitigkeit erstellt, um alle Arten von Scraping-Anforderungen zu erfüllen und gleichzeitig sicherzustellen, dass sie auch für Nicht-Programmierer benutzerfreundlich ist, da im Tipps-Panel eine Schritt-für-Schritt-Anleitung bereitgestellt wird.
1. Wählen Sie Ihre Zieldaten auf der Webseite
Wählen Sie im integrierten Browser mit einfachen Klicks alle Daten, die Sie aus der Webseite extrahieren möchten. Wenn Sie mit der Maus über die Webseite fahren, versucht Octoparse zu verstehen, was Sie abrufen möchten, indem es die Seitenelemente um Ihren Cursor herum hervorhebt. Sie können Ihren Cursor leicht bewegen, wenn der hervorgehobene Bereich nicht ganz in der Nähe dessen liegt, was Sie extrahieren möchten.
Sobald die gewünschten Daten blau hervorgehoben sind, können Sie die Auswahl durch Klicken bestätigen. Jetzt sollte das ausgewählte Seitenelement grün hervorgehoben sein, was bedeutet, dass es erfolgreich ausgewählt wurde.
Wiederholen Sie den gleichen Vorgang, wenn Sie mehrere Elemente auf derselben Seite extrahieren möchten.
2. Folgen Sie den Anweisungen im Tipps-Panel
Octoparse versucht, Sie durch den Aufgabenerstellungsprozess zu führen, indem es Ihnen alle möglichen nächsten Schritte im Tipps-Panel anbietet. Auf diese Weise kann Octoparse mit Ihnen „sprechen“.
Jedes Mal, wenn Sie ein Element auswählen, wird das Fenster Tipps-Panel mit einer Reihe von Optionen angezeigt, aus denen Sie wählen können. Folgen Sie einfach den Anweisungen und wählen Sie aus, wie Sie mit den ausgewählten Daten verfahren möchten. Wenn Sie beispielsweise den Text der ausgewählten Elemente extrahieren möchten, können Sie Text wählen. Wenn Sie auf das ausgewählte Element klicken möchten, um zur verknüpften Seite zu gelangen, können Sie „Auf Element klicken“ wählen.
Nachfolgend sind die am häufigsten verwendeten Aktionen aufgeführt:
Text - Erfasst den Text des ausgewählten Seitenelements.
Auf Element klicken - Klicken Sie auf das ausgewählte Seitenelement.
InnerHtml & OuterHtml - erfassen den Quellcodestring des ausgewählten Elements.
Schleife klicken- Klicken Sie wiederholt auf das ausgewählte Element (ähnlich wie bei Klickschleife auf nächste Seite).
Link - Erfassen Sie die URL des ausgewählten Links (wenn ein Link ausgewählt ist).
Bild-URL – Erfassen Sie die Bild-URL (wenn ein Bild ausgewählt ist).
Tipps:
In Fällen, in denen ein Zielelement mit dem Cursor nur schwer zu erreichen ist, können Sie die Auswahl mithilfe der HTML-Tags unten im Tipps-Panel verfeinern.
Der Button Auswahl erweitern
am Ende kann verwendet werden, um die aktuelle Auswahl zu erweitern, sodass das äußere HTML-Tag enthalten ist. Wenn Sie beispielsweise den gesamten Teil um das ausgewählte Element herum extrahieren möchten, können Sie so lange auf den Button „Erweitern“ klicken, bis der gesamte Teil grün hervorgehoben wird.
3. Überprüfen Sie den Workflow
Während Sie mit der Erstellung der Scraping-Aufgabe fortfahren, erstellt Octoparse gleichzeitig einen Workflow entsprechend Ihrer Interaktion mit der Webseite und dem Tipps-Panel.
Ein Beispiel-Workflow:
Tipp: In diesem Tutorial erfahren Sie Schritt für Schritt, wie Sie Ihren Workflow testen: Lektion 4: Testen Sie die Aufgabe
4. Führen Sie die Aufgabe aus
Nachdem Sie die Erstellung und Prüfung Ihrer Aufgabe abgeschlossen haben, können Sie die Aufgabe ausführen, indem Sie auf die Schaltfläche Starten klicken. Sie können die Aufgabe auf Ihrem Gerät oder in der Cloud ausführen.