Zum Hauptinhalt springen

Scraping der Tweets von einem Twitter-Konto

Vor über einer Woche aktualisiert

Mit 211 Millionen täglich aktiven Nutzern hat Twitter seinen Wert im Social-Media-Marketing unter Beweis gestellt. Nutzer posten durchschnittlich 6.000 Tweets pro Sekunde, was einer täglichen Tweet-Gesamtzahl von über 500 Millionen entspricht. All dieses Gerede und der Lärm sind eine wahre Fundgrube wertvoller Informationen für Vermarkter, Marken, Forscher und Analysten. Vermarkter und Marken nutzen häufig Twitter-Daten von bestimmten Accounts (Influencern und Wettbewerbern), um das Engagement zu analysieren und effektive Strategien zu planen.

Aufgrund der großen Nachfrage ist dieses Tutorial das zweite in einer Reihe von Tutorials, die das Octoparse-Team für Benutzer vorbereitet hat, die Twitter-Daten benötigen.

In diesem Beitrag zeigen wir Ihnen, wie Sie Tweets von einem öffentlichen Konto scrapen.

Wenn Sie sich nicht die Mühe machen möchten, selbst einen benutzerdefinierten Crawler zu erstellen, können Sie auf dem Hauptbildschirm nach einer gebrauchsfertigen Twitter- Aufgabenvorlage suchen, um Zeit zu sparen.

Wenn Sie wissen möchten, wie Sie die Aufgabe von Grund auf neu erstellen, können Sie das folgende Tutorial weiterlesen oder sich das Video unten ansehen.

Sie können den folgenden Beispiellink verwenden, um weiterzumachen:


1: Erstellen Sie eine „Zur Webseite gehen“-Seite, um den Ziel-Twitter-Link zu öffnen

eder Arbeitsablauf in Octoparse beginnt damit, dass Octoparse eine Webseite mitgeteilt wird, mit der es beginnen soll.

  • Geben Sie die Beispiel-URL in die Suchleiste oben auf dem Startbildschirm ein und klicken Sie auf „Start“.



2: Melden Sie sich im Browsermodus bei Twitter an, um Cookies zur Authentifizierung zu speichern

Twitter verbietet den direkten Zugriff auf Follower/Follower-Listen, sofern Sie sich nicht vorher angemeldet haben.

  • Aktivieren Sie den Browsermodus und melden Sie sich bei Twitter an, wie Sie es in einem normalen Browser tun würden (Bitte verwenden Sie zum Anmelden Ihr Twitter-Konto).

  • Klicken Sie auf die Aktion „Zur Webseite gehen“, um das Einstellungsfenster (unten rechts) zu öffnen.

  • Gehen Sie zur Registerkarte „Optionen“ und aktivieren Sie „Cookies verwenden“

  • Klicken Sie auf „Cookie der aktuellen Seite verwenden“

  • Klicken Sie auf „Übernehmen“ , um die Einstellungen zu speichern

  • Deaktivieren des Browse-Modus

Wir haben nun erfolgreich die Anmeldeinformationen im Aufgaben-Workflow gespeichert, sodass unser Twitter-Konto angemeldet werden kann, wenn wir die Aufgabe ausführen.


3. Erstellen Sie ein Loop-Element, um jeden Tweet in einer Schleife zu durchlaufen

Als Nächstes müssen wir eine Schleife für alle Tweets erstellen.

  • Wählen Sie den ersten Tweet auf der Webseite aus (beachten Sie, dass die Farbe beim Auswählen des gesamten Tweet-Blocks grün wird).

  • Fahren Sie mit der Auswahl des zweiten Tweets fort

  • Wählen Sie Text aus dem Tipps -Bereich


4. Erstellen Sie ein weiteres Loop-Element, um die Webseite nach unten zu scrollen

Das Endlos-Scroll-Muster von Twitter ist darauf ausgelegt, Inhalte dynamisch zu laden. Um den Datenverlust zu minimieren, sind einige Anpassungen im Aufgaben-Workflow erforderlich.

  • Fügen Sie dem Workflow ein neues Loop-Element hinzu

  • Ziehen Sie die ursprüngliche Schleife in die neue Schleife (Loop-Element innerhalb von Loop-Element1)

__t.gif
  • Klicken Sie auf das Loop-Element1 und stellen Sie den Loop-Modus auf der Registerkarte „Allgemein“ auf „Seite scrollen“ ein.

77.png
  • Stellen Sie das Bildlaufmuster auf für einen Bildschirm ein , warten Sie 1 Sekunde und wiederholen Sie es 100 Mal (oder öfter).

  • Aktivieren Sie „Daten beim dynamischen Scrollen der Seite erfassen (möglicherweise Duplikate)“ (Wichtig!)

  • Klicken Sie zur Bestätigung auf „Übernehmen“.

1.png

5. Schreiben Sie einige XPath-Elemente neu, um die Webelemente genauer zu lokalisieren

Der automatisch generierte XPath ist möglicherweise nicht genau genug. Daher müssen wir den XPath für einige Datenfelder neu schreiben.

  • Klicken Sie auf „Loop-Element“ (nicht auf „Loop-Element 1“) und geben Sie den XPath //article[@role="article"]/../../.. ein.

8.png

6. Weitere Datenfelder hinzufügen – um die gewünschten Daten zu scrapen

  • Klicken Sie auf Daten extrahieren

  • Wählen Sie den Text aus, den Sie scrapen möchten

  • Wählen Sie Text aus dem Tipps -Bereich

  • Wiederholen Sie die Aktion und erhalten Sie Name, Uhrzeit, Text, Antwort, Retweet, Likes

  • Doppelklicken Sie auf jede Feldüberschrift, um sie umzubenennen

    Möglicherweise fällt Ihnen auf, dass die Veröffentlichungszeit des Tweets mit „3 Minuten“ angegeben ist. Wir müssen das Datenfeld bereinigen, um das genaue Datum/die genaue Uhrzeit der Veröffentlichung anzuzeigen.

    • Klicken Sie im Feld auf die Schaltfläche „Mehr“

    • Wählen Sie Feld anpassen

    • Wählen Sie diese Option aus, um das Attribut „ DateTime“ zu extrahieren


7. Führen Sie die Aufgabe aus, um die gewünschten Daten zu erhalten

  • Klicken Sie oben rechts auf „Speichern“ , um Ihre Aufgabe zu speichern

  • Klicken Sie daneben auf „Ausführen“ und warten Sie, bis ein Fenster „Aufgabe ausführen“ angezeigt wird.

  • Wählen Sie „Auf Ihrem Gerät ausführen“ , um die Aufgabe auf Ihrem lokalen Gerät auszuführen

  • Warten Sie, bis die Aufgabe abgeschlossen ist


Hier ist die Beispielausgabe eines lokalen Laufs.

Tipp: Es ist normal, dass Sie Duplikate erhalten, da bei jedem Scrollen der Seite nur ein oder zwei neue Tweets geladen werden.

Lokale Ausführungen eignen sich hervorragend für die Fehlerbehebung und schnelle Ausführungen. Bei komplexeren Aufgaben empfiehlt sich die Option „ In der Cloud ausführen“, um die Aufgabe auf der Cloud-basierten Plattform von Octoparse für höhere Geschwindigkeit auszuführen. Testen Sie diese Premium-Funktion, indem Sie sich hier für die 14-tägige kostenlose Testversion anmelden . Sie können Ihre Aufgabe auch so planen, dass sie stündlich, täglich oder wöchentlich ausgeführt wird und Sie regelmäßig Daten erhalten.

Hat dies deine Frage beantwortet?