Das Örtliche ist ein deutsches Telekommunikationsverzeichnis und beinhaltet nicht nur private sondern auch gewerbliche Einträge. Die Zusammenfassung von zahlreichen Kontaktangaben wie Name, Anschrift, Telefonnummer oder E-Mail-Adresse bundesweit ist freundlich für die Menschen, die einen Partner oder einen potenziellen Kunden finden möchten und nicht wissen, wie man die Leadsdaten bekommen können.
In diesem Tutorial können Sie bekommen, wie man einen Scraper über Das Örtliche mit Octoparse erstellen. Das macht die Hände frei. Um Leadsdaten auszulesen, können Sie zuerst unser vorgestelltes Template namend Listing Informationen_Das Örtliche probieren. Die Vorlage benötigt ganz und voll keine Technikkenntnisse und ist einfach zu verwenden.
Wenn das oben genannte Template Ihren Scraping-Bedürfnisse nicht so entspricht, können Sie versuchen, von Anfang an manuell einen Scraper nach Ihrem Bedarf einzurichten. Wir würden die folgende URL verwenden, um die Daten wie Titel, Adresse, Telefonnummer, Bewertung, Öffnungszeiten usw. scrapen.
In der rechten Seitenleiste sind die hauptsächlichen Schritte in diesem Tutorial. [Hier können Sie die Beispiel-Datei downloaden.]
Schritt 1: „Zur Website“ - um die Ziel-Webseite zu öffnen
Geben Sie die Ziel-Website in den Kasten auf die Startseite ein.
Klicken Sie auf „Starten“, um in die Seite wie im Browser einzugehen.
Schritt 2: „Auf Button klicken“ - um das Cookies-Fenster zu schließen
Wählen Sie den Button „Alle akzeptieren“ im Fenster, dann klicken Sie auf „Auf Button klicken“ unter Tipps-Platte, um Cookies zu akzeptieren und danach das Fenster zu schließen.
Wählen Sie den Schritt und passen Sie manuell die Wartezeit und das AJAX-Timeout unter Optionen an.
Hier stellen Sie z. B. Wartezeit als 1s und „Laden mit AJAX“ als 5s ein. Und bitte deaktivieren Sie „In einem neuen Tab öffnen“, weil wir nur das Cookies-Fenster schließen möchten und es keine Veränderungen bei der Seite gibt.
Klicken Sie auf „Übernehmen“ zur Speicherung der Einstellungen.
Notiz!
Die Wartezeit und das AJAX-Timeout kann Octoparse beim Laden von der Website helfen. Normalerweise benötigt das Laden von Website oder eine Aktion zur Ausführung Zeit. Die Logik von Octoparse ist das Nachahmen von den menschlichen Verhalten, so braucht man auch die Aktionen ähnlich wie Menschen einzustellen.
Schritt 3: „Text eingeben“ - um die Texte in den Kasten einzugeben
Nachdem die Website schon geladen ist, können wir durch Eingabe von Schlüsselwörter die entsprechenden Leadsliste finden. Erstellen Sie Schritte namend „Text eingeben“ zur Eingabe von Schlüsselwörter. Die Logik ist einige Schritte, gerade ähnlich wie menschliches Verhalten, was wir während dem Durchsuchen der Website machen.
Klicken Sie auf beliebigen Kasten (Name oder Ort), dann wird Octoparse automatisch ihn als eine Eingabestaste detektieren.
Wählen Sie „Text eingeben“ unter Tipps-Platte.
Geben Sie ein Schlüsselwort hier ein, z. B. bmw.
Dann klicken Sie auf „Bestätigen“, einen automatischen Eingabe-Schritt wird eingerichtet.
Tipp!
Wenn Sie eine Liste von den Schlüsselwörter eingeben möchten, können Sie „Geben Sie den Text in der Schleife ein“ ganz unten auswählen. Damit können Sie unterschiedliche Ergebnisse von vielen Schlüsselwörtern einmal bekommen.
Achtung: NUR ein Schlüsselwort pro Linie
Wenn Sie noch Orte begrenzen möchten, wiederholen Sie bitte oben ganannten Schritte in diesem Teil und erstellen Sie einen „Text eingeben“ für Ort-Kasten.
Innerhalb von dem Kasten gibt es auch eine Option. Sie können durch dem Aktivieren von „Drücken Sie nach der Eingabe die Eingabe-/Return-Taste“ direkt die Ergebnisse anzeigen, wenn alle Eingabe-Schritte fertig gemacht werden. Stellen Sie ein geeignetes Timeout ein, wie z. B. 5s.
Tipp!
Oder Sie können auch nicht direkt diese Option unter Tipps-Platte wählen, sonst durch Klick auf „Finden“ auf die Website und „Auf Button klicken“ unter Tipps-Platte wählen einen Sprungprozess zu erstellen.
Schritt 4: Loop Item - um alle Items auf das Listing zu lokalisieren
Schweben Sie sich den Mauszeigner auf den Workflow.
Wählen Sie „Schleife“ im Workflow, um ein Loop einzurichten.
Wechseln Sie den Schleifenmodus als „Variable Liste“, um alle Items auf das Listing genau zu lokalisieren.
Geben Sie manuell diesen Matching-XPath in den Kasten: //div[@class="splitter"]/..
Klicken Sie auf „Übernehmen“, um alle Veränderungen zu speichern.
Schritt 5: „Daten Scrapen“ - um die gewünschten Daten zu scrapen
Nachdem die Schleife erstellt wurde, können wir jetzt Daten aus der Listenseite wählen und scrapen.
Klicken Sie auf beliebiges Element auf die Website, was Sie scrapen möchten. Hier scrapen wir zuerst den Titel jedes Items als ein Beispiel.
Wählen Sie „Text+Link“, um sowohl Text als auch Link jeder Detailseite auszulesen.
Wählen Sie weiter andere Elemente, bis alle gewünschten Infos schon gescrapt werden.
Notiz!
Wenn Sie nur Daten wie Text oder Link scrapen möchten, können Sie unter „Daten extrahieren“-Teil auf Tipps-Platte eine gewünschte Form auswählen.
InnerHtml und OuterHtml sind normalerweise verwendet, wenn man nur einen Teil von den ganzen Texte bekommen möchte, man sollte mit RegEx es benutzen.
Gehen Sie zur Datenvorschau, hier können Sie die gescrapten Datenfelder weiter bearbeiten.
Wenn Sie die extrahierten Datenfelder bearbeiten möchten, können Sie einfach auf „...“ klicken und die ausgewählten Datenfelder duplizieren, löschen, verfeinern usw.
Wenn Sie den Namen eines Felder umbenennen möchten, können Sie doppelt auf den Titel des Feldes klicken.
Schritt 6: Alternativer XPath - um die Felder von allen Items zu lokalisieren
Wenn Sie auch Daten wie Telefonnummer, Kategorie gescrapt haben, finden Sie vielleicht, dass sie von den meisten Items nicht lokalisiert werden. Der Unterschied zwischen dem ersten Item und den anderen Items führt zu dieser Erscheinung. In diesem Fall muss man für solche Felder zusätzlich einen alternativen XPath einstellen.
Schweben Sie den Mauszeigner auf ein Feld davon, um das Zeichen „Mehr“ anzuzeigen.
Klicken Sie darauf und dann öffnen Sie das Fenster mit „XPath anpassen“.
Kreuzen Sie „Alternativen XPath versuchen“ an.
Wechseln Sie den Modus als „Relativer XPath zum Schleifenelement“.
Geben Sie bitte diesen Matching-XPath in den unteren Kasten ein: //div[@class="left"]/address
Die anderen relativen XPath von den Felder benötigen Sie vielleicht:
Kategorie: //div[@class="category"]
Telefonnummer: //div[@class="phoneblock"]/span[1]
Öffnungszeiten: //div[@class="hitlnk_times opnclosed"]
Tipp!
Ist XPath zauberhaft? Einfach eingeben und alle Felder automatisch lokalisieren! Wenn Sie mehr Kenntnisse darüber bekommen möchten, können Sie einfach dieses Tutorial lesen und lernen, wie man einen XPath schreiben können: Was ist XPath und wie ihn zu verwenden?
Schritt 7: In Detailseite einzugehen - um mehr Details zu scrapen
Klicken Sie wieder auf den Titel eines Items.
Wählen Sie „Auf Button klicken“, um in die Detailseite einzugehen.
Stellen Sie Wartezeit als 2s und AJAX-Timeout als 5s für diesen Klick-Schritt ein.
Klicken Sie auf „Übernehmen“ zur Speicherung der Einstellungen.
Scrapen Sie alle gewünschten Datenfelder wie auf das Listing.
Schritt 8: Starten der Extraktion - um Task durchzuführen und Daten zu erhalten
Klicken auf „Speichern“.
Klicken auf „Starten“.
Wählen „Auf Ihrem Gerät ausführen“, um das Task mit Ihrem lokalen Gerät auszuführen, oder Wählen „In der Cloud ausführen“, um das Task auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).
Es ist ein Beispiel-Output: