Immobilien ist ein wichtiger Teil vom Leben. Ob Sie als Student, Arbeitnehmer oder Verbraucher eine Wohnung suchen, es kann Ihnen Kopfzerbrechen bereiten, die begehrtesten Immobilien zu den besten Preisen zu finden. ImmoScout24.de ist eine der am häufigsten genutzten Immobilien-Websites in Deutschland. Heute lernen wir, wie man Octoparse für den Preisvergleich und die Datenerfassung nutzen kann, damit man ein zufriedenstellendes Angebot erhält.
Stellen Sie sich vor, dass wir jetzt eine gute Wohnung in Berlin mieten möchten, so können wir zuerst alle Filter auf ImmoScout24.de anpassen und dann die URL in Octoparse kopieren. Wir würden die folgende URL verwenden, um die Daten wie Kaltmiete, Wohnfläche, Adresse, Bild usw. aus den Listenseiten zu scrapen:
Bitte beachten: Auf diese Website wird es normalerweise Captcha erscheinen. Zur Zeit können Sie nur manuell es anpassen. Leider bieten wir noch keine Methode, um solches Captcha automatisch zu lösen.
In der rechten Seitenleiste sind die hauptsächlichen Schritte in diesem Tutorial. [Durch diesen Link laden Sie die Datei herunter]
Schritt 1: „Zur Website“ - um die Ziel-Webseite zu eröffnen
Geben Sie die URL auf die Startseite ein und dann klicken Sie auf „Starten“.
Wenn Sie dazwischen auf Captcha stoßen, können Sie den Browser-Modus eröffnen und dann manuell es anpassen.
Schritt 2: Verwendung der Auto-Detektionsfunktion - um einen Workflow zu erstellen
Klicken Sie auf „Daten der Webseite automatisch detektieren“ und warten Sie darauf, bis die Detektion abgeschlossen ist.
Wählen Sie „Automatische Detektionsergebnisse wechseln“, bis alle Button vom „Zum Projekt“ ausgewählt werden. In diesem Fall kann man in jede Detailseite eingehen.
Klicken Sie auf „Workflow erstellen“.
Klicken Sie auf „Unterseite URL auswählen“, dann wird Octoparse automatisch das Feld, was eine URL enthält, einfügen. Klicken Sie auf „Bestätigen“ zum Weiter.
Schritt 3: Passen Sie den Matching-XPath von der Schleife an - um alle Elemente jedes Items lokalisiert zu werden
Geben Sie bitte diesen Matching-XPath unter „Generell“ vom Schleifenelement ein: //div[@id="resultlistpage"]/DIV[1]/DIV[3]/DIV[1]/DIV[2]/DIV[1]/DIV[1]/UL[1]/LI/ARTICLE[1]
Jetzt sind alle lokalisierten Elemente in Blau hervorgehoben.
Schritt 4: Wählen Sie die gewünschten Datenfelder - um alle Daten zu extrahieren
Klicken Sie auf das gewünschte Feld und wählen Sie ein geeignetes Format unter Tipps-Platte, z. B. hier scrape ich die Kaltmiete als „Text“.
Wenn Sie einen Link scrapen möchten aber es bei der Tipps-Platte keine solche Auswahl gäbe, können Sie die unteren Etiketten wählen und dann wird die Option erscheinen.
Gehen Sie zur Datenvorschau, um zu sehen, ob Sie mit dem aktuellen Daten-Output zufrieden sind.
Wenn Sie die extrahierten Datenfelder bearbeiten möchten, können Sie einfach auf „...“ klicken und die ausgewählten Datenfelder duplizieren, löschen, verfeinern usw.
Wenn Sie den Namen eines Felder umbenennen möchten, können Sie doppelt auf den Titel des Feldes klicken.
Schritt 5: Starten der Extraktion - um Task durchzuführen und Daten zu erhalten
Klicken auf „Speichern“.
Klicken auf „Starten“.
Wählen „Auf Ihrem Gerät ausführen“, um das Task mit Ihrem lokalen Gerät auszuführen, oder Wählen „In der Cloud ausführen“, um das Task auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).