Scraping der Daten aus Duckduckgo Suchergebnisse

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

Duckduckgo ist eine Suchmaschine, die entscprechend den Suchschlüsselwörtern von Menschen sofortige Antworten anbietet. Die Idee des Schutzes der Privatsphäre hat sich Hunderte von Millionen von Nutzern erobert und die Anzahl nimmt immer weiter zu. Um die gewünschte Information im Batch zu erhalten, würden wir Ihnen anzeigen, wie man in diesem Fall mit Octoparse die Suchergebnisse auf die Webseite scrapen kann.

Um diesem Tutorial zu folgen, benötigen Sie vielleicht diese URL: https://duckduckgo.com/?q=Covid&t=h_&ia=coronavirus

In der rechten Seitenleiste gibt es die hauptsächlichen Schritte in diesem Tutorial. [Herunterladen der Datei hier]

Schritt 1: Eingabe der URL auf der Startseite - um die Ziel-Seite zu öffnen

Die Ziel-URL benötigt zuerst eingegebn werden, um eine Scraping-Reise zu starten.

Geben Sie die COVID-URL in den Suchkasten ein, der sich in der Mitte des Startbildschirms befindet.
Klicken Sie auf "Start", um ein neues Task in Advanced Mode zu erstellen.

Schritt 2: Starten der Auto-Detektion - um einen Workflow zu generieren

Die intergrierte Auto-Detektionsfunktion von Octoparse kann Ihnen hellfen, automatisch und schnell einen Workflow zu generieren. Erweiterte Änderungen können aufgrund des vorgestellten Workflows gemacht werden.

Klicken Sie auf "Auto-detect web page data" und warten darauf, dass die Detektion abgeschlossen ist.

Überprüfen Sie die Datenfelder in der Datenvorschau. Wenn nötig, können Sie die ungewünschten Daten löschen oder umbenennen.

Klicken Sie auf "Create workflow".

Der endgültige Workflow würde wie folgend generiert:

Schritt 3: Modifizieren des XPath für Pagination - um genauer "Mehr Laden" Button zu lokalisieren

Um sicherzustellen, dass die Ergebnisse von "Mehr Laden" richtig sind, ist das Modifizieren vom XPath ganz bedeutend.

Klicken Sie auf "Pagination".
Geben Sie den XPath in den Matching-XPath-Kasten unter den General-Einstellungen ein: //a[@class="result--more__btn btn btn--full"]
Klicken Sie auf "Apply".

Schritt 4: Modifizieren des XPath für Felder - um präziser die Daten zu erhalten

Die Form von jedem Ergebnis könnte vielleicht miteinander nicht gleich. Ein Teil enthält Öffnungszeit, während der anderen Teil nicht. In diesem Fall müssen wir den XPath des Feldes modifizieren, um zu gewährleisten, dass es immer die richtige Information lokalisieren kann.

Klicken Sie auf "More (...)".
Wählen Sie "Customize XPath".

Geben Sie den XPath ein: /article/div[3]
Klicken Sie auf "Apply" zur Speicherung.

Schritt 5: Modifizieren des Workflows - um die Daten zu erhalten, nachdem alle Ergebnisse geladen sind

Um Duplikate beim Scraping zu vermeiden, ist es sicherer, den Schritt von "Extract Data" aus der Pagination auszuziehen.

Ziehen Sie "Extract Data Loop Item" heraus und stellen Sie es unter Pagination.

Schritt 6: Ausführung des Tasks - um die gewünschten Daten zu bekommen

Klicken Sie zuerst auf "Save" Button, um alle Einstellungen zu speichern, die Sie gemacht haben.
Dann klicken Sie auf "Run", um Ihr Task in die Lokale oder in die Cloud auszuführen.

Wählen Sie "Run on your device" und dann klicken Sie auf "Run now", um Ihr Task in Ihrem eigenen Gerät durchzuführen.
Warten Sie, bis Ihr Task abgeschlossen ist.

Folgend ist ein Beispiel-Output aus der Lokale. Excel-, CSV-, HTML- und JSON-Dateien sind für Export unterstützt.

Verwandte Artikel