Scraping der Nachrichten von Bild.de

Bild.de ist ein Nachrichtenportal mit zahlreichen Bilder. Für Benutzer ist seine Form ganz untershiedlich und einzigartig. Mit den Bilder zeigt die Weibseite alle Nachrichten. Gemäß Zahlen der IVW ist Bild.de jetzt das meistgenutzte Nachrichtenportal in Deutschland. Man kann bei dieser Webseite die neuesten Nachrichten von verschiedenen Branchen erhalten. In diesem Tutorial würden wir Ihnen anzeigen, wie man die Nachrichten im Bereich von inländischer Politik aus Bild.de scrapen kann.

Prüfen Sie bitte die folgenden Schritte, wenn Sie wissen möchten, wie man von Anfang an mit Octoparse ein Task erstellen kann. Wir würden die folgende URL verwenden, um die Daten wie Titel, Detail-URLs, Vorstellung usw. scrapen.

https://www.bild.de/politik/inland/politik-inland/home-15682786.bild.html

In der rechten Seitenleiste sind die hauptsächlichen Schritte in diesem Tutorial. [Im Anhang laden Sie die Datei herunter]

Schritt 1: „Go to Web Page“ - um die Ziel-Webseite zu öffnen

Geben Sie die Beispiel-URL in den Kasten auf der Startseite ein.
Dann klicken Sie auf „Start“, um in die Seite einzugehen.

Schrtt 2: Alle gewünschten Items auswählen - um einen Workflow zu erstellen

Hier gibt es zwei Methoden zur Erstellung eines Loop-Items: Manuell erstellen oder mit Auto-Detektionsfunktion automatisch erstellen.

Methode 1: Verwendung der Auto-Detektion

Klicken Sie auf „Auto-detect webpage data“ in der oben rechten Ecke, damit man automatisch einen Workflow erhalten kann.
Nach der automatischen Detektion würden einige Optionen erscheinen. Hier kreuzen Sie diese Option „Add a page scroll“ nicht an. Danach wird ein Workflow mit „Loop Item“ erstellt.
Klicken Sie auf „Create workflow“.

Methode 2: Manuell Workflow einstellen

Gehen Sie in den Teil von „Alle Artikel“. Klicken Sie auf ein Element einer Nachricht.
Wählen Sie „Select all similar element“, um alle ähnlichen Elemente auszuwählen. Nach der Auswahl sind alle ähnlichen Items in Grün hervorgehoben.

Klicken Sie auf „Text“, um die Text-Daten zu extrahieren.

Jetzt erstellt Octoparse automatisch ein Loop-Item.
Stellen Sie den Matching-XPath für Loop-Item ein, um alle Items zu lokalisieren, die Sie scrapen möchten: //article[@class="stage-teaser standard article"].
Klicken Sie auf „Apply“ zur Speicherung.

Wählen Sie alle gewünschten Datenfelder wie oben.
- Hier nennen wir Titel_URL als ein Beispiel, weil sie etwas speziell ist. Nachdem man auf Titel klickt, kann man nicht direkt die URL extrahieren. Man muss zuerst auf „A-Tag“ klicken, und dann wählen Sie „Link“ unter dem Teil von „Extract data“ zum Scrapen.

Alle Datenfelder können Sie hier sehen:

Schritt 3: Bearbeitung Ihrer Daten - um gescrapte Daten zu reinigen, umzubenennen oder anzupassen

Gehen Sie zur „Data preview“, um zu sehen, ob Sie mit dem aktuellen Daten-Output zufrieden sind.

Klicken Sie doppelt auf den Titel eines Feldes, um das Feld umzubenennen.

Wenn Sie die extrahierten Datenfelder bearbeiten möchten, können Sie einfach auf „...“ neben dem Titel des Feldes klicken und die ausgewählten Datenfelder duplizieren, löschen, verfeinern usw.

Mehr Details über „Extract data“ und Beschreibung von XPath können Sie hier lernen und ansehen:

Schritt 4: Starten der Extraktion - um Task durchzuführen und Daten zu erhalten

Klicken auf „Save“.
Klicken auf „Run“.
Wählen „Run on your device“, um das Task mit Ihrem lokalen Gerät auszuführen, oder Wählen „Run in the Cloud“, um das Task auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).

Hier sind die Beispieldaten.

Scraping der Nachrichten von Bild_de.otd

Verwandte Artikel