Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

Ein Bericht hat gezeigt, dass Twitter nun jeden Tag 211 Millionen aktive Bunutzer*innen hat. Damit hat sich Twitter im Social Media Marketing bewährt. Twitter-Nutzer posten durchschnittlich 6000 Tweets pro Sekunde, so dass täglich über 500 Millionen Tweets gepostet werden. Alle Informationen sind für Vermarkter, Marken, Forscher und Analysten Schatz. Vermarkter und Marken scrapen häufig die Daten von Twitter aus spezifischen Konten (wie Einflusshabende und Wettbewerber), um das Engagement zu analysieren und effektive Strategien zu planen.

Wegen zahlreicher Bedürfnisse ist dieses Tutorial das erste, was wir für unsere Benutzer vorbereitet haben, um Twitter-Daten zu erhalten.

In diesem Tutorial würden Sie lernen, wie man Follower/folgende Liste aus einem öffentlichen Konto scrapen kann. Überprüfen Sie im Folgenden die zwei Beispiel-URLs:

https://twitter.com/NintendoAmerica/followers

https://twitter.com/NintendoAmerica/following

Notiz: Obwohl die Workflows extrem gleich sind, müssen Sie doch zwei getrennte Tasks erstellen, um mit unterschiedlichen XPaths zwei Liste zu extrahieren.

Schritt 1: Zur Webseite - um die Ziel-Webseite zu öffnen

Jeder Workflow in Octoparse startet dabei, dass Octoparse eine Webseite öffnet.

Geben Sie in der Suchleiste den Link der Follower/folgenden Liste ein, die oben auf dem Startbildschirm liegt. Dann klicken Sie auf „Starten“.

Schritt 2: Einloggen unter Browser-Modus - um Cookies zu speichern für Authentifizierung

Twitter erlaubt nicht, direkt in Follower/folgenden Liste einzugehen, falls Sie sich nicht anmelden.

Öffnen Sie Browser-Modus und loggen Sie sich bei Twitter ein, wie Sie in normalem Browse vielmals gamacht haben.

Klicken Sie auf „Zur Webseite“ Aktion, um ihre Einstellungenplatte zu öffnen, die sich am Ende rechts befindet.
Gehen Sie zu den „Optionen“-Tab und kreuzen Sie „Cookies verwenden“ an.
Klicken Sie auf „Verwenden Sie Cookie aus dieser aktuellen Seite“.
Klicken Sie auf „Anwenden“ zur Speicherung der Einstellungen.

Schließen Sie Browser-Modus.

Wir haben nun erfolgreich die Einloggensinfo im Workflow gespeichert. Damit kann unser Twitter-Konto während der Ausführung des Tasks automatisch einloggen.

Schritt 3: Daten extrahieren - um die grundlegenden Info für ein öffentliches Konto aus der Seitenüberschrift abzurufen

Klicken Sie auf beliebiges Element auf die Seite und dann selektieren Sie gewünschtes Element unter „Daten extrahieren“.

Hier scrape ich den Inhalt von Tweets als Beispiel. Zuerst wählen Sie den Inhalt-Teil und dann klicken Sie „Text“ an.

Wiederholen Sie die oben Aktion, um alle gewünschten Datenfelder in geeignete Form zu erhalten.
Klicken Sie auf „Benutzerdefiniertes Feld hinzufügen“ und danach wählen Sie „Seite-URL“ aus „Daten auf Seitenebene“, um die Detail-URL zu bekommen.

Notiz: Twitter verändert sich vermutlich den XPath der Kopfzeile. Sie müssen den XPath erneut schreiben, wenn die Datenvorschau keine richtige Information enthält.

XPath für Eingabename: //h2[@dir="auto" and @aria-level="2"]/span
XPath für Benutzername: //h2[@dir="auto" and @aria-level="2"]/following-sibling::div/span

Schritt 4: Automatische Detektionserfassung - um einen Workflow einzustellen

Twitters Infinite-Scroll-Muster ist darauf ausgelegt, Inhalte dynamisch zu laden. Die Auto-Detektionsfunktion von Octoparse kann Ihnen helfen, ganz leicht diese Art von Seiten zu identifizieren und dann einen Workflow zu erstellen.

Klicken Sie auf „Daten der Webseite automatisch detektieren“ in der Tipps-Platte und warten darauf, bis die Detektion abgeschlossen ist.

Überprüfen Sie die Datenfelder in der Datenvorschau. Wenn nötig, können Sie auch die ungewünschten Daten löschen oder umbenennen.

Klicken Sie auf „Workflow erstellen“.

Sie würden einen Workflow wie dies ansehen:

Benennen Sie die Felder um, indem Sie darauf doppelt klicken, wenn nötig.

Schritt 5: Hinzufügen eines neuen Feldes für „Daten extrahieren“

Die Auto-Detektionsfunktion scrapt die Bio-Information nicht.

Klicken Sie auf Bio-Information und dann wählen Sie „Text“ in der Tipps-Platte.

Schritt 6: Seite Scrollen - um Seite zu scrollen und mehr Followers/Following zu laden

Klicken Sie auf „Seite scrollen“, um ihre Einstellungen zu öffnen.
Stellen Sie Bildlaufmuster für „nur einen Bildschirm“ und „Wiederholungen“ als 600 Mal (oder öfter) ein.
Stellen Sie die Wartezeit als 3s ein, um den Inhalt der Liste vollständig zu laden.
Kreuzen Sie „Erfassen von Daten beim dynamischen Scrollen der Seite“, um den Datenverlust zu minimieren.
Klicken Sie auf „Anwenden“ zur Speicherung der Einstellungen.

Schritt 7: Task durchführen - um Ihre gewünschten Daten zu bekommen

Klicken Sie oben rechts auf „Speichern“, um Ihre Aufgabe zu speichern.
Klicken Sie auf „Starten“ neben dem Speichern-Button und warten Sie, bis ein Start-Fenster geöffnet wird.
Wählen Sie „Auf Ihrem Gerät führen“, um die Aufgabe auf Ihrem eigenen Gerät auszuführen.
Warten Sie, bis die Aufgabe geschlossen ist.

Hier gibt es ein Beispiel-Output aus der Lokale-Ausführung:

Tipp: Lokale-Ausführungen sind für Fehlerbehebung der Aufgaben und schnelle Ausführungen ganz toll. Wenn Sie kompliziertere Aufgaben behandeln, empfehlen wir Ihnen, Ihr Task in der Cloud durchzuführen, was auf cloud-basierte Plattformen von Octoparse basiert und die Daten schneller scrapen kann. Natürlich können Sie sich eine kostenlose 14-tätige Testversion anmelden, um die Cloud-Funktionen zu erfahren. Sie können auch damit regelmäßig Ihr Task planen, wie stündlich, täglich oder wöchentlich durchführen.

Verwandte Artikel

Scraping der Daten aus Duckduckgo Suchergebnisse

Scraping der Bewertungen aus einem Tweet

Scraping der Bewertungen aus Google Maps (V8.4)

Scraping der Tweets von einem Twitter-Konto

Scraping der Nachrichten von Bild.de

Scraping der Follower/folgenden Liste aus einem öffentlichen Twitter-Konto