Die erweiterte Google-Suche ist eine detailliertere Methode, um Informationen in Google zu finden. Sie verwendet eine Vielzahl von Google-Suchoperatoren, die aus bestimmten Zeichen und Befehlen bestehen - auch bekannt als „erweiterte Operatoren“ - die über eine Standard-Google-Suche hinausgehen.
Ein Beispiel wird im folgenden Bild angezeigt:
Wenn Sie unten auf der Webseite auf die Schaltfläche Erweiterte Suche klicken, gelangen Sie auf die Seite mit den Suchergebnissen:
Dieses Tutorial zeigt Ihnen, wie Sie Daten aus den Ergebnissen der erweiterten Google-Suche mit Octoparse unter Verwendung der obigen URL abrufen können.
Sie können auch zu „Aufgabenvorlagen“ auf dem Hauptbildschirm des Octoparse Scraping-Tools gehen und direkt mit unserem vorgefertigten Vorlage von erweiterer Google-Suche beginnen, um Zeit zu sparen. Weitere Details zu den Aufgabenvorlagen können Sie hier nachlesen.
In der rechten Seitenleiste sind die hauptsächlichen Schritte in diesem Tutorial. [Durch diesen Link laden Sie die Datei herunter]
Schritt 1: „Zur Website“ erstellen - um die Ziel-Webseite zu öffnen
Geben Sie die URL auf die Startseite ein und dann klicken Sie auf „Starten“.
Schritt 2: Pagination erstellen - um Daten aus mehreren Seite zu scrapen
Klicken Sie auf den „Weiter“-Button und wählen Sie „Schleife klicken“.
Stellen Sie AJAX-Timeout vom Klick-Schritt ein: 7-10s ist empfohlen
Notiz: Manchmal verwendet Google Captcha als Anti-Scraping-Maßnahme. Um das Captcha manuell zu lösen, schalten Sie den Browse-Modus ein und folgen Sie den Anweisungen.
Schritt 3: Eine Schleife erstellen - um die Daten zu lokalisieren
Klicken Sie auf „+“-Zeichen in der Pagination und wählen Sie „Schleife“.
Klicken Sie auf Schleife und wechseln Sie den Schleifenmodus in „Variable Liste“.
Geben Sie den Matching-XPath in den Kasten ein: //div[@lang="de"]
Klicken Sie auf „Übernehmen“.
Schritt 4: „Daten extrahieren“ erstellen - um die Suchergebnisse zu scrapen
Klicken Sie auf den Titel des ersten Items auf die Website.
Klicken Sie auf „Text“ unter Tipps-Platte.
Wiederholen Sie die oberen zwei Schritte, um die anderen Datenfelder zu extrahieren.
Klicken Sie auf den „Mehr“-Button und wählen Sie „XPath anpassen“.
Modifizieren Sie den XPath der Datenfelder wie folgend:
Titel: //h3
Beschreibung: /div[1]/div[2]/div[1]
Schritt 5: Wartezeit erstellen - um sicherzustellen, dass die Daten vollständig geladen sind
Warten vor der Aktion ist eine Funktion, die für jede Aktion im Workflow festgelegt werden kann. Sie lässt die Aufgabe warten, bevor die Aktion ausgeführt wird.
In diesem Fall ist es besser, eine Option namend „Warten vor der Aktion“ für Schleifenelement und Daten extrahieren in den Workflow einzufügen. Die Wartezeit kann auch dazu beitragen, eine Blockierung durch die Google-Suche zu vermeiden.
Klicken Sie auf jeden Schritt --> Optionen
Stellen Sie eine Wartezeit: 3s ist empfohlen
Klicken Sie auf „Übernehmen“.
Der endliche Workflow sieht wie folgend aus:
Schritt 6: Starten der Extraktion - um Task durchzuführen und Daten zu erhalten
Klicken auf „Speichern“.
Klicken auf „Starten“.
Wählen „Auf Ihrem Gerät ausführen“, um das Task mit Ihrem lokalen Gerät auszuführen, oder Wählen „In der Cloud ausführen“, um das Task auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).
Hier sind die Beispieldaten.
Tipp: Lokale Läufe eignen sich hervorragend für die Fehlersuche bei Aufgaben und schnelle Läufe. Wenn Sie mit komplizierteren Aufgaben zu tun haben, wird empfohlen, dass Sie „In der Cloud ausführen“ wählen, um die Aufgabe in der Cloud-basierten Plattform von Octopars auszuführen und so eine höhere Geschwindigkeit zu erzielen. Probieren Sie diese Premium-Funktion aus, indem Sie sich hier für die 14-tägige kostenlose Testversion anmelden. Sie können Ihre Aufgabe auch so planen, dass sie stündlich, täglich oder wöchentlich ausgeführt wird und Sie regelmäßig Daten erhalten.